大数据
fazhi-bb
物有本末,事有终始,知所先后,则近道矣。
展开
-
[Windows下eclipse调试hadoop环境配置]
Windows的hadoop环境配置 解压hadoop-2.5.0.zip到目录D:\ Program Files \ Java \ hadoop-2.5.0。 配置Hadoop的环境变量: HADOOP_HOME = d:\ PROGRAMFILES \的Java \ Hadoop的2.5.0 PATH =%HADOOP_HOME%\ bin中eclips...原创 2018-05-27 20:16:31 · 7095 阅读 · 0 评论 -
[Spark好友推荐]
好友推荐概念 目前大量的社交网站上,它们都有一个共同的特性,就是可以在好友关系的基础上推荐更多的联系人。例如,QQ的“你可能认识的人”特性允许用户查看它们可能联系的人。基本思想就是:如果tom是jack的好友,而tom又是peter的好友,也就是说,tom是jack和peter的共同好友,但是jack和peter可能并不认识你。那么社交网络系统可能就会推荐jack与peter联系,又或...原创 2018-07-20 21:47:58 · 6474 阅读 · 1 评论 -
[Spark购物篮的关联规则实现]
购物篮分析(Market Basket Analysis,MBA)是一个商品交易中流行的数据挖掘技术,市场营销人员和电子商务人员经常用这个技术来揭示不同商品或商品组合之间的相似度。商品数据挖掘的目标,一般是从庞大的数据集合中提取有趣及有用的关联信息,例如数前千万商品或信用卡销售交易。购物篮分析可以帮助分析人员找出很有可能一起购买的商品,关联规则挖掘则会发现一个交易商品之间的相关性。然...原创 2018-07-07 21:29:19 · 5409 阅读 · 1 评论 -
[Spark RDD转换操作运算子]
Spark RDD转换操作RDD,即弹性分布式数据集,全称为Resilient Distributed Dataset,是一个容错的,并行的数据结构,可以让用户显式地 将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组非常丰富的操作来操作这些数据,如:map,flatMap,filter等转换操作,以及SaveAsTextFile,conutByKey等行动操作。本博客中...原创 2018-07-24 23:30:57 · 7188 阅读 · 0 评论 -
[Spark共同好友查找]
共同好友的概念 在一个庞大的社交网络中,两个互相认识的朋友之间的也会存在共同好友。在这个庞大的社交网络总,对所有的用户对中找到”共同好友”,这是一个复杂及有趣的事情。假设,U为一个用户及其所有好友的一个集合:{U1,U2,U3,…Un},我们要从每组集合(Ui,Uj)(i != j)找出共同好友关系。 在如今的大多数社交网络(Facebook,LinkedIn,QQ)...原创 2018-07-18 21:14:56 · 5130 阅读 · 5 评论 -
[Hadoop合并小文件的两种解决方案]
在Hadoop的运行环境中,什么文件是小文件?在Hadoop的世界中,小文件是指文件大小远远小于HDFS块大小的文件。Hadoop2.0中,HDFS默认的块大小是128MB,所以,比如2MB,7MB或9MB的文件就认为是小文件。在Hadoop的环境中,块大小是可以通过参数配置的,这个参数由一个名为dfs.block.size定义。如果一个应用要处理一个超大的文件,可以通过这个参数设置更大更...原创 2018-07-03 21:50:28 · 28330 阅读 · 5 评论 -
[Hadoop-HA高可用集群部署]
1 集群规划 以5台机器为例,linux用的是CentOS 6.5 x64的机器对集群部署进行规划,所有机器的用户名及密码均为hadoop。名称 主机名 安装软件 JPS PC1 cdh.hadoo.com Jdk/hadoop NameNode ZKFC Resourcemanager JobHistoryServer PC2 master2.hadoop.com ...原创 2018-06-10 15:22:21 · 9781 阅读 · 0 评论 -
[Spark的TopN算法实现]
一、TopN算法 MapRedce中的TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N次运算,这个结果是可以接受的并不会造成性能瓶颈。 MapRedce中的TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 本文将介绍三种TopN的算法: 1.唯一键的TopN算法,就是...原创 2018-06-09 22:35:54 · 19854 阅读 · 3 评论 -
[Spark中移动平均法的实现]
一、 基本概念 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映短期趋势的方法。因此,当时间序列的数值由于受周期变动和随机波动的影响,起伏较大,不易显示出事件的发展趋势时,使用移动平均法可以消除这些因素的影响,显示出事件的发展方向与趋势(即趋势线),然后依趋势线分析预测序列的中短期趋势。 移动平均法的应用...原创 2018-06-24 21:28:19 · 11063 阅读 · 4 评论 -
[Spark的LeftOuterJoin操作]
在编写SQL语句时,大家都比较熟悉的LeftOuterJoinn来关联两个表之间的数据,从而查询到我们想要的结果。在Spark的数据操作中,同样也会经常使用LeftOuterJoin来关联两个数据集。那么,在Spark数据操作中主要有那几种数据集的LeftOuterJoin方法呢? 本文中操作LeftOuterJoin方法时,主要用到的数据为用户表数据和用户订单交易数据,使用Left...原创 2018-06-12 20:56:38 · 16605 阅读 · 0 评论 -
HBase基于shell的增删改查等操作命令
1、基本命令1.1 查询状态(status)hbase(main):009:0> status1.2 查看版本(version) hbase(main):001:0> version1.3 查看帮助信息(help) hbase(main):038:0> helphbase(main):038:0> get helphb...原创 2019-07-26 20:27:10 · 1331 阅读 · 0 评论