大数据
白墨Blake
这个作者很懒,什么都没留下…
展开
-
MapReduce的排序
排序是数据分析中最常用的操作,没有之一。 单字段升序: 利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可 自定义排序规则: 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter && getter 3...原创 2019-09-27 11:03:57 · 766 阅读 · 0 评论 -
MapReduce的优化
Map Join: 在 Map 阶段拼接数据,效率高, 只适合一个文件小到能够读取到内存中 job: 1. 添加小文间到 classpath job.addFileToClassPath() map: 1. 在 setup 读取小文间的内容,保存到内存中的 HashMap 中 以 关联条件为 key,其它字段为 value ...原创 2019-09-27 11:05:12 · 204 阅读 · 0 评论 -
MapReduce保存计算结果到数据库
------------- 创建数据库和表 --------------- mysql -u root -p 登录数据库 create database if not existsii; 创建数据库 useii; 使用数据库 create table if not exists `ii` ( `id` int primary key auto_increment, `word` varc...原创 2019-09-27 11:10:21 · 810 阅读 · 0 评论 -
MapReduce练习IpAction
统计每个 ip 做了多少次 操作 统计每个 操作,执行了多少次 每个 ip 的每个操作 执行了多少次(包括分区) 192.168.10.109 这个 ip 执行了多少次操作 每个 ip 的每个操作 执行了多少次,只看次数大于 400 的 ip-action数据文件下载: ...原创 2019-09-27 11:37:44 · 223 阅读 · 1 评论