自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 MapReduce序列化

序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。 反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。 内存中的对象只能本地进程使用,断掉后就消失了,也不能被发送到网络上的另一台机器,序列化可以将内存中的对象发送到远程机器。由于Java本身的序列化框架(Serializable)太重,序列化的对象包含了很多额外信息,不便于在网络中高效传输,Hadoop开发了自...

2020-05-22 18:21:13 432

原创 2020-05-21 今日体会

在今年初的时候,我给自己订了一个目标,建立自己的行为准则,今天偶然看到了一个故事,有一点反思,希望记录下来,在日后的生活中运用实践。 故事大概是这样,一个历史老师问一个学生是否知道姜维,对他怎么看。学生说姜维我再熟悉不过了,姜维是诸葛亮的爱徒,九出祁山,即使被邓艾所拜,最后关头仍然想翻盘,可惜刘禅不给力。老师说:你错了,姜维是一个军事冒险家,胆大却不够心细,能力确实强于世人,严于律己,也苛以待人,...

2020-05-21 14:34:31 311

原创 MapReduce —— WordCount案例

WordCount:统计一个或多个文件内每个单词的出现次数。 一般情况下,一个MapReduce程序主要包含三个部分:Map、Reduce和Drive。Map阶段主要负责将任务拆分到不同的节点上,各个MapTask是相互独立的,Reduce负责将Map阶段各个节点上的结果进行整合,Drive主要负责环境的配置信息以及连接Map和Reduce。 Map阶段 import org.apache....

2020-05-20 15:41:56 363

原创 MapReduce

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要用于分析数据。 优缺点 优点 易于编程,接口简单; 良好的扩展性,可以通过简单的增加机器扩展计算性能; 高容错性,当一个节点挂了,它可以将上面的计算任务转移到另外一个节点上运行而不需要人工参与; 适合PB级以上海量数据的离线处理。 缺点 不擅长实时计算,无法在毫秒活着妙级返回结果; 不擅...

2020-05-20 13:27:31 238

WordCountMapReduce.zip

内容为MapReduce的一些代码实践,包括: 1 自定义的FileInputFormat的实现代码; 2 自定义的Partition分区示例代码; 3 自定义的排序代码实例。

2020-05-24

python机器学习实战

机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

2017-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除