自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse

这章的名称叫反转排序,应该说让人非常的迷惑。 这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数

2018-01-30 14:36:54 389

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表

大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce: 在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r

2018-01-29 14:33:15 550

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序

写在前面: 在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/

2018-01-26 16:03:45 2435

原创 Spark学习阶段总结

学习Spark一段时间后,实际上是有些困惑的 如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。 1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。 2.spark里要完成同一件事,可以使用不同的算子组合

2018-01-25 15:26:23 304

原创 Spark开发中遇到的问题及解决方法

1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常 解决方法: 1.下载winutils的windows版本   GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co

2018-01-16 15:38:16 2084

原创 招聘网站技术类词频分析_第二版

目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:HanLP中文分词 https://github.com/hankcs/HanLP 日志收集:Flume 数据计算平台:

2018-01-15 17:36:28 553

原创 大数据学习笔记(十八)-MRUnit

MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。 所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId

2018-01-05 15:47:40 257

原创 大数据学习笔记(十七)-MapReduce

1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。 在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的) 2.对map、reduce操作的理解 ①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条

2018-01-04 18:25:56 473

Google ARCore Sample APK

压缩包中包含两个APK,都是需要安装的,一个是ARCore的ServiceAPK,实际就是Tango。。。安装的时候连图标和名字都没有改,这个apk安装后是没有启动图标的,应该是一个提供AR服务的APK。另一个是Sample编译出的APK,直接运行,就可以了

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除