Hadoop
Angelababy_huan
这个作者很懒,什么都没留下…
展开
-
基于Hadoop的Kmeans算法实现
Kmeans算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标。即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法流程如下: 1. 从N条数据中随机选取K条数据作为初始聚类中心; 2. 对剩余的每条数据测量其到每个聚类中心的距离,并将其归到最近的中心的类; 3. 重新计算已原创 2016-11-05 13:31:54 · 5619 阅读 · 0 评论 -
通用MapReduce程序复制HBase表数据
编写MR程序,让其可以适合大部分的HBase表数据导入到HBase表数据。其中包括可以设置版本数、可以设置输入表的列导入设置(选取其中某几列)、可以设置输出表的列导出设置(选取其中某几列)。 原始表test1数据如下: 每个row key都有两个版本的数据,这里只显示了row key为1的数据 在hbase shell 中创建数据表:create 'test2',{N原创 2016-11-19 23:49:15 · 886 阅读 · 0 评论 -
hadoop集群中解决查看任务的history报错问题
开启集群,运行MR任务,在8088端口查看任务信息的时候: 出现如下错误: 解决方法: 首先将/tmp的权限修改为777,看是否可以解决问题。如果不行,再检查集群的时间是否统一。如果不统一,利用ntp将时间统一,即可查看。原创 2016-11-01 10:17:14 · 2215 阅读 · 0 评论 -
Hive 中自定义UDF函数
在Hive中,编写自定义UDF函数,可以帮助我们更轻松的做ETL。 例如,现在我要求某一列数据的平方,在eclipse新建工程,并新建一个Test包,在Test包下新建一个类Square:public class Square extends UDF{ public DoubleWritable evaluate(Text k){ DoubleWritable d原创 2016-11-06 00:22:25 · 491 阅读 · 0 评论 -
Hadoop+Hive实现航空公司客户价值分析
如题,利用Hive对航空公司客户数据进行探索分析、数据预处理并建立LRFMC模型,再利用Hadoop集群实现Kmeans对客户进行分群。如重要保持客户、重要发展客户、重要挽留客户、一般客户和低价值客户,再根据不同的客户群体来指定相应的优惠政策来实现利益最大化。 在用到的数据集中包含了62988条数据,其中包括客户基本信息(会员卡号、入会时间等)、乘机信息(观测窗口的票价收入、平均折扣率等原创 2016-11-06 13:52:11 · 5487 阅读 · 0 评论 -
Hive桶表
首先创建普通内表:create table u( id int, name string, age int)row format delimited fields terminated by ','; 创建桶表(可以大大优化查询的速度):create table tu( id int, name string, age int)原创 2016-11-06 00:07:12 · 546 阅读 · 0 评论 -
Hive创建表的几种方式
hive执行的三种方式: 1. 用hive CLI 2. 终端执行hive命令: hive -e hive语句 3. 终端执行hive脚本: hive -f hive脚本 如果需要通过jdbc来连接hive,需要在终端开启hiveserver2服务nohup hive --service hiveserver2 &netstat -ntpl | g原创 2016-11-05 23:29:58 · 6436 阅读 · 0 评论 -
Hadoop集群中Hive的配置
1. 解压缩apache-hive-1.2.1-bin.tar.gz 文件。tar -zxf apache-hive-1.2.1-bin.tar.gz //这里解压在/opt目录下 2. 配置Hive,进入进入/opt/apache-hive-1.2.1-bin/conf目录,将hive-env.sh.template复制为hive-env.sh,并在hive-env.sh中添加原创 2016-11-05 23:07:02 · 794 阅读 · 0 评论 -
基于Hadoop的朴素贝叶斯算法实现
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 以下为一个简单的例子: 数据:天气情况和每天是否踢足球的记录表日期踢足球天气温度湿度风速1号否(0)晴天(0)热(0)原创 2016-11-05 16:35:32 · 6365 阅读 · 3 评论 -
基于Hadoop的Knn算法实现
Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来原创 2016-11-05 15:16:25 · 5126 阅读 · 5 评论 -
蓄水池抽样基于MapReduce的实现
问题:现在有一个很大的数据,假设有几千万条但不知道具体有多少条,如何在只遍历一次的情况下,随机取出其中K条数据? 思路:可以将此问题抽象为蓄水池抽样问题。即,先把读取到的前K条数据放入列表中,对于第K+1个对象,以K/(K+1)的概率选择该对象;对于第K+2个对象,以K/(K+2)的概率选择该对象;以此类推,以K/M的概率选择第M个对象(M>K)。如果M被选中,则随机替换列表中的一个对象原创 2016-11-03 22:57:10 · 1585 阅读 · 0 评论 -
冠字号查询系统中HBase写入数据性能测试
机器说明:4台centos虚拟机,每台分别配置2G内存 测试步骤:为了方便测试,利用hbase shell新建表如下:create 'identify01', {NAME => 'op_www', VERSIONS => 1000},SPLITS => ['AAAR3333','AABI6666']create 'identify02', {NAME => 'op_www',原创 2016-11-27 14:41:28 · 1317 阅读 · 0 评论