- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse
这章的名称叫反转排序,应该说让人非常的迷惑。 这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数
2018-01-30 14:36:54 389
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表
大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce: 在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r
2018-01-29 14:33:15 550
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序
写在前面: 在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/
2018-01-26 16:03:45 2435
原创 Spark学习阶段总结
学习Spark一段时间后,实际上是有些困惑的 如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。 1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。 2.spark里要完成同一件事,可以使用不同的算子组合
2018-01-25 15:26:23 304
原创 Spark开发中遇到的问题及解决方法
1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常 解决方法: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co
2018-01-16 15:38:16 2084
原创 招聘网站技术类词频分析_第二版
目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:HanLP中文分词 https://github.com/hankcs/HanLP 日志收集:Flume 数据计算平台:
2018-01-15 17:36:28 553
原创 大数据学习笔记(十八)-MRUnit
MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。 所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId
2018-01-05 15:47:40 257
原创 大数据学习笔记(十七)-MapReduce
1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。 在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的) 2.对map、reduce操作的理解 ①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条
2018-01-04 18:25:56 473
Google ARCore Sample APK
2017-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人