自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 CF推荐算法-近邻

一、推荐系统效果评估指标1)均方根误差(RMSE)f(u,i)代表的是预测值,代表的是实际值N代表的测试集的数量所以RMSE也就是每个测试集的预测值和实际值的差的平方之和/测试集数量N 然后开根号2)平均绝对误差(MAE)和RMSE相似MAE 每个测试集的预测值和实际值的差的绝对值之和 / 测试集数量N 然后开根号3)准确率(Precision)...

2018-09-23 23:38:17 1180

原创 python-Numpy学习(全)

一、数组的创建与操作1.获取数组的元素import numpy as nparr1 = np.array([3,10,12,5,6,8,9,111])print(arr1.shape)arr2 = np.reshape(arr1,(2,4))print(arr2)print(arr1)#取出10,12print(arr1[1:3])#取出第一行第三个 12print...

2018-10-28 23:18:16 965

原创 hive 分区和分桶

一、为啥分区hive 为了避免全表查询,从而引进分区,将数据按目录进行划分,减少不必要的查询,从而提高效率二、hive的分区和mysql分区的区别mysql的分区字段用的是表内字段,hive的分区字段采用表外字段,也就是使用伪字段,分区字段在创建表的时候指定分区的关键字:partitioned by(字段)三、静态分区练习create table if not exist...

2018-10-15 19:13:16 2284

原创 hive join

join关键字默认为内连接,返回两张表中都有的信息;left join以前面的表作为主表和其他表进行关联,返回的记录数和主表的记录数相同,关联不上的字段用NULL;right join与left相反,以后面的表为主表,和前面的表做关联,返回的记录数和主表一致,关联不上的字段为NULL;full join为全关联,返回两个表记录的并集,关联不上的字段为NULL;left semi j...

2018-10-13 15:23:14 313

原创 K-means算法

算法思想:以空间中K个点为中心,对最靠近他们的点进行归类,通过迭代,逐次更新各聚类中心点的值,直到有最好的聚类效果算法描述:1)开始随机选中k个点作为初始中心2)开始迭代,求其到各中心ci的距离,算出距离di,选出di最小的一个中心点,作为这个点所在类3)利用均值的方法更新该类的中心值,也就是把迭代过后,所有属于某个中心点的值的x和y进行求平均找到新的中心点4)对于所有的c...

2018-09-26 15:50:43 436

原创 梯度下降 随机梯度下降 算法

一、一维梯度下降算法思想:我们要找到一个函数的谷底,可以通过不断求导,不断逼近,找到一个函数求导后为0,我们就引入了一个概念学习率(也可以叫作步长),因为是不断逼近某个x,所以学习率过大会导致超过最优解,而学习率过小,会导致收敛速度过慢。二、多维梯度下降算法思想:和一维梯度下降算法思想类似,只是导数由原来的一维变成现在的多维,算法思想本质没有变化,在计算导数的过程发生了...

2018-09-25 17:03:21 2421

原创 python实现决策树代码

数据图片 from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import preprocessingfrom numpy import *import numpy as npfrom sklearn import treefrom sklearn.externals.si...

2018-09-12 19:01:26 3053

原创 机器学习-决策树算法

机器学习中分类和预测算法的评估:1.准确率2.速度3.强壮性4.可规模性5.可解释性 1.什么是决策树/判定树判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。2.机器学习中分类方法中的一个重要算法3.构造决策树的基本算法3.1熵的概念一...

2018-09-11 21:05:58 277

原创 机器学习-基本概念

基本概念:测试集,特征集,监督学习,非监督学习,半监督学习,分类,回归一个简单的监督学习例子     天气:晴,阴,雨      温度:暖,冷     湿度:普通,大     风力:强,弱     水温:暖,冷     预报:一样,变化     享受运动:是,否1.这是一个分类问题,最终的结果只有true/false的答案2.x是每一个实例,X是全部的实...

2018-09-11 20:17:08 175

原创 hive jdbc 插入中文数据乱码 解决

在插入的数据中对中文数据进行解码和转码string= new String(string.getBytes("unicode"),"iso-8859-1");再插入数据就不再乱码了

2018-08-28 21:48:42 851

原创 Hbase HRegionServer 启动不了的解决方案

时间不同步的问题在每个集群下面输入这个命令就可以更新时间ntpdate pool.ntp.org然后start-hbase.sh就可以了

2018-08-27 11:21:32 2818 1

原创 Java实现 SparkStreaming读取Kafka数据,并且单词累加计数

网络上大部分文章都没有做到真正的单词累加计数,终于研究完以后成功实现简单的Kafka生产者package com.zwj.utils;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import org.a...

2018-08-24 11:16:04 4953 1

原创 SparkStreaming 读取NC,并单词计数

package SparkStreamimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, Streami...

2018-08-20 10:14:41 906

原创 读取Kafka数据并作单词计数

读取Kafka数据并计数的代码package SparkStreamimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.dstream.{DStream, ReceiverInp...

2018-08-20 10:05:17 353

原创 kafka API练习

生产者层面package Kafkaimport java.util.Propertiesimport kafka.producer.{KeyedMessage, Producer, ProducerConfig}object KafkaProducerTest { def main(args: Array[String]): Unit = { //定义topic...

2018-08-18 17:51:24 279

原创 Spark aggergate算子的原理

//输出的是0 1 因为 ""和 "12" "23"比较最小的是0,而这个结果返回的是0,0.toString之后长度为1了,所以第一个分区的值应该是1, // 1和"333"的长度比较,最小的是1,又和""比较,最小的是0 所以最后输出的是0 1 val rdd5 = sc.parallelize(List("12","23","333"

2018-08-15 19:46:23 347

原创 Spark中RDD的依赖关系

RDD的依赖关系有两种,一个是宽依赖,一个是窄依赖宽依赖,就像以前的偷生游击队父的Partition可以被很多子依赖使用窄依赖,就像实施了独生子女政策后,只能有一个即 父的Partition只能被一个子依赖所使用...

2018-08-14 08:50:34 482

原创 scala 实现wordCount

object ScalaWordCount { def main(args: Array[String]): Unit = { val lines = List("hello world hello java hello scala","hello world hello java hello scala","hello java hello scala") //获取单词...

2018-08-10 17:17:44 722

原创 scala中模式匹配的一个小坑

object PatternDemo extends App { var sign = 0 val ch = '8' val cc:Char = 'p' var digit = 0 ch match { case '+' => sign = 1 case '-' => sign = -1 //使用|分割多个选项 case '*' |...

2018-08-08 21:27:27 315

原创 scala单例模式、伴生对象

package loggingobject Student { private var name="" def setname_=(): Unit ={ name +="aaaa" } def getName = name}package loggingobject Test extends App { //var student = new S...

2018-08-06 21:23:49 177

原创 scala抽象类

2018-08-06 20:33:51 302

原创 Scala Mixins特性

package day02abstract class A { val msg:String}class B extends A { override val msg: String = "I am B"}//此处的特征C即为mixintrait C extends A{ def loudMsg = msg.toUpperCase()}trait H extend...

2018-08-06 17:46:06 221

原创 Spark和Hadoop的区别

Spark是基于内存的一种计算框架(有时也会用磁盘,比如Spark Shuffle的时候),但是很多操作,比如单纯的map操作,没有reduce操作;或者是filter类的操作,都是可以直接基于内存进行计算的MapReduce的计算模型非常固定,必须基于磁盘,以及大量的网络传输所以,Spark的速度可以比MapReduce,Hive快很多SparkSQL只是替代Hive的计算引擎...

2018-08-06 11:39:10 834

原创 Scala类的get,set方法

package day02import sun.management.Agentclass Student { //命名的时候不能和下面的set方法X_中的X重复,否则会出现二义性的异常 private var ages = 0 private var names = "" def age = ages //set方法必须要变量名_ 也就是age_ def a...

2018-08-06 11:36:05 5086

原创 HBase mapreduce的使用

package com.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Mutation;import ...

2018-08-04 16:59:09 616

原创 Hbase列族的作用

Hbase为啥列镞的数量不能过多,官网的解释加自己的理解 首先,刷新和 压缩是按区域进行的,如果一个列镞携带来大量数据,当达到给定大小(hbase.hregion.memstore.flush.size)时,就会将内容刷新到StoreFile,而Store中的StoreFile会因为时间的推移而增加,压缩就是为了减少Store中StoreFiles的数量,将一些StoreFile合并,这样可以提高...

2018-08-04 09:16:25 2924

原创 Hbase Java操作 以及简单业务

package com.test;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import...

2018-08-01 20:59:33 856

原创 自定义hive的函数

package com.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class MyConcatUdf extends UDF{ public String evaluate(String word) { if(word == null) { return "NULL"; } return word+"_...

2018-07-28 21:57:17 168

原创 hive内部函数

select split(rand()*100,'\\.')[0];随机取整数select round(rand()*100);随机取整数select round(rand()*100,2);//后面跟的是小数的位数select substring(rand()*100,0,2);select regexp_replace("a.jpg","jpg","png");//jpg替换成...

2018-07-28 21:04:47 449

原创 hive的复杂数据类型

数组类型create table arr1(name String,score Array<double>)row format delimited fields terminated by '\t'collection items terminated by ',' 这代表数组以‘,’分割stored as textfile;简单查询map类型...

2018-07-28 20:33:31 1616

原创 hive分区2

这句话是将已经有内容的表comm3添加到分区表comm4中去需要设置 set hive.exec.dynamic.partition.mode=nonstrict;此时插入数据不需要设置成nonstrict只需要设置成strict插入了2016这个数据...

2018-07-28 17:28:55 143

原创 hive分区

创建一个分区表create table comm(id int,comment String,dt String)partitioned by (year String)row format delimited fields terminated by '\t';数据导入load data inpath '/data/d1' into table comm parti...

2018-07-28 15:33:51 139

原创 Hive的命令

create database 数据库名大部分命令和sql命令一样其创建出来的数据库在hdfs文件系统中的/user/hive/warehouse可以通过下面这个命令查看hdfs dfs -ls /user/hive/warehouse创建表create table hivetable3(id bigint,name String,sex tinyint)row...

2018-07-27 22:14:49 2653

原创 hadoop处理数据的效率的几个因素

1、与文件大小无关,与有效数据读写有关2、与实际运算的效率有关  

2018-07-27 11:25:03 1342

原创 Hadoop中MapReduce 的Combiner 的实现

自己实现Combinerpackage com.mapreduce;import java.io.IOException;import org.apache.hadoop.examples.SecondarySort.Reduce;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer...

2018-07-26 16:50:15 263

原创 Hadoop 分区案例(根据不同的值分到不同文件)

主程序代码package com.mapreduce;import java.io.IOException;import javax.imageio.stream.FileImageInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;imp...

2018-07-26 11:21:34 682

原创 Hadoop MapReduce 的模板

package com.mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...

2018-07-26 11:14:59 150

原创 MapReduce的流程

每一行的输入数据,通过split进行区分然后将区分好的数据存入到各自的Mapping然后Shuffing将key值相同的归在一起安装逻辑Reducing最后的值

2018-07-25 19:52:08 146

原创 awk处理数据

cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print($1,$3)'}':' :代表按照:进行分割BEGIN:就是开始做的任务$3,$1代表分割后第3个和第1个的值 awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print(...

2018-07-25 19:32:13 330

原创 关于yarn jar error Command "jar" not found.

在使用 yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02跳出error Command "jar" not found.然后进入bin目录下./yarn jar ../share/hadoop/mapreduce/h...

2018-07-25 11:15:32 1504

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除