2018年01月_狂暴棕熊

06月 03月 02月 01月

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（三）——Order Inverse

这章的名称叫反转排序，应该说让人非常的迷惑。这里我觉得一篇Blog对Order Inverse的解释更合理一些（http://blog.csdn.net/hadoop_mapreduce/article/details/39802287），根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则，来保证框架在Shuffle的时候能够按照期望将会被一起处理的数

2018-01-30 14:36:54 389

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（二）——TopN列表

大数据计算力经常要面对TopN的问题，也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce：在Map中使用SortedMap完成每个节点的TopN操作，然后所有节点将数据汇聚到Reduce节点，再次使用SortedMap完成TopN操作，其中setup()中做初始化工作，map()中构造SortedMap，在cleanup()中将生成的SortedMap输出给r

2018-01-29 14:33:15 550

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（一）——二次排序

写在前面：在做直播的时候有同学问Spark不是用Scala语言作为开发语言么，的确是的，从网上查资料的话也会看到大把大把的用Scala编写的Spark程序，但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容，最常见的就是某一个API是怎么用的，很多都是拷贝粘贴的重复内容，真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的，《数据算法-Hadoop/

2018-01-26 16:03:45 2435

原创 Spark学习阶段总结

学习Spark一段时间后，实际上是有些困惑的如果说只针对数据操作的话，大部分算子都用过了，学习的成本并不高，因为之前是做Android开发的，所以感觉api方面好少，没有那么多东西需要掌握。但是实际上自己很清楚自己的水平，但是后续如何提升大概有几点想法。 1.相关的配置和使用，spark里面有大量的属性配置，好的配置可以提高运行效率。 2.spark里要完成同一件事，可以使用不同的算子组合

2018-01-25 15:26:23 304

原创 Spark开发中遇到的问题及解决方法

1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常解决方法： 1.下载winutils的windows版本　　GitHub上，有人提供了winutils的windows的版本，项目地址是：https://github.com/srccodes/hadoop-co

2018-01-16 15:38:16 2084

原创招聘网站技术类词频分析_第二版

目标：大数据项目练习需求：从招聘网站上（暂定智联招聘）爬取招聘信息，通过词频统计，分析企业对IT人才需求使用框架：平台：阿里云爬虫：scrapy https://docs.scrapy.org/en/latest/index.html 中文分词：HanLP中文分词 https://github.com/hankcs/HanLP 日志收集：Flume 数据计算平台：

2018-01-15 17:36:28 553

原创大数据学习笔记（十八）-MRUnit

MapReduce是跑在集群上的，这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看，但是这样效率很低，也很难定位问题，因为要每次打包，上传，执行jar包。所以本地Debug单步调试非常的重要，调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId

2018-01-05 15:47:40 257

原创大数据学习笔记（十七）-MapReduce

1.在MapReduce中被分成了两类，map操作和reduce操作，1个job是由若干次map操作和1次reduce操作组成的。在MapReduce中，最重要的就是理解数据在处理时都是以Key/Value形式输入输出的（在数据初始读入时，也是以Key/Value形式读入的） 2.对map、reduce操作的理解 ①map是映射：简单理解的话可以理解成遍历原有数据集中的所有数据，针对每一条

2018-01-04 18:25:56 473

Google ARCore Sample APK

压缩包中包含两个APK，都是需要安装的，一个是ARCore的ServiceAPK，实际就是Tango。。。安装的时候连图标和名字都没有改，这个apk安装后是没有启动图标的，应该是一个提供AR服务的APK。另一个是Sample编译出的APK，直接运行，就可以了

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人