自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zzyzzy12

大数据搬砖狗...

原创 Spark Streaming 处理中文异常的解决方案

最近用Spark Streaming从Kafka接数据进行处理,是对中文的内容进行计算。发现处理时中文全变成了????????的形式,导致处理的结果和预期的不一样。但把数据放在redis或者放入下游的kafka topic,中文又正常了。为了防止是因为打日志的编码问题导致的判断出错,专门对算法进行...

2016-10-13 23:42:42

阅读数 1431

评论数 0

原创 对决策树,随机森林的初步认识

决策树是常用的分类方法,其方法也非常的直观。每一次从父亲到孩子是对某个特征的分裂,对于树中的叶子,要么是已经为纯净的了(所有样本都属于同一类),或者没有特征可以分裂。对于后一种情况的出现,可以考虑将划分为该点样本属于最多的类。而对于一个分类问题可以构造出无限多的决策树,判定一棵决策树的好坏是看这颗...

2016-10-10 11:27:01

阅读数 475

评论数 0

转载 Spark Streaming 中使用kafka低级api+zookeeper 保存 offset 并重用 以及 相关代码整合

spark streaming 使用 kafka低级api维护offset 在

2016-10-09 15:39:20

阅读数 4629

评论数 2

原创 Scala版SparkStreaming读写kafka,low level api模板代码存档

spark streaming从kafka的某个topic拉取数据,处理完后再放入某个topic中的一个模板,不完整,作为参考,加了部分备注。     SparkStreaming主程序模板 package jacob.sparkstreaming import java.util ...

2016-10-08 12:51:31

阅读数 3374

评论数 1

提示
确定要删除当前文章?
取消 删除