Angelababy_huan-CSDN博客

原创冠字号查询系统中HBase写入数据性能测试

机器说明：4台centos虚拟机，每台分别配置2G内存测试步骤：为了方便测试，利用hbase shell新建表如下：create 'identify01', {NAME => 'op_www', VERSIONS => 1000},SPLITS => ['AAAR3333','AABI6666']create 'identify02', {NAME => 'op_www',

2016-11-27 14:41:28 1342

原创通用MapReduce程序复制HBase表数据

编写MR程序，让其可以适合大部分的HBase表数据导入到HBase表数据。其中包括可以设置版本数、可以设置输入表的列导入设置(选取其中某几列)、可以设置输出表的列导出设置(选取其中某几列)。原始表test1数据如下：每个row key都有两个版本的数据，这里只显示了row key为1的数据在hbase shell 中创建数据表：create 'test2',{N

2016-11-19 23:49:15 905

原创 Hadoop+Hive实现航空公司客户价值分析

如题，利用Hive对航空公司客户数据进行探索分析、数据预处理并建立LRFMC模型，再利用Hadoop集群实现Kmeans对客户进行分群。如重要保持客户、重要发展客户、重要挽留客户、一般客户和低价值客户，再根据不同的客户群体来指定相应的优惠政策来实现利益最大化。在用到的数据集中包含了62988条数据，其中包括客户基本信息（会员卡号、入会时间等）、乘机信息（观测窗口的票价收入、平均折扣率等

2016-11-06 13:52:11 5541

原创 Hive 中自定义UDF函数

在Hive中，编写自定义UDF函数，可以帮助我们更轻松的做ETL。例如，现在我要求某一列数据的平方，在eclipse新建工程，并新建一个Test包，在Test包下新建一个类Square：public class Square extends UDF{ public DoubleWritable evaluate(Text k){ DoubleWritable d

2016-11-06 00:22:25 527

原创 Hive桶表

首先创建普通内表：create table u( id int, name string, age int)row format delimited fields terminated by ','; 创建桶表（可以大大优化查询的速度）：create table tu( id int, name string, age int)

2016-11-06 00:07:12 580

原创 Hive创建表的几种方式

hive执行的三种方式： 1. 用hive CLI 2. 终端执行hive命令： hive -e hive语句 3. 终端执行hive脚本： hive -f hive脚本如果需要通过jdbc来连接hive，需要在终端开启hiveserver2服务nohup hive --service hiveserver2 &netstat -ntpl | g

2016-11-05 23:29:58 6679

原创 Hadoop集群中Hive的配置

1. 解压缩apache-hive-1.2.1-bin.tar.gz 文件。tar -zxf apache-hive-1.2.1-bin.tar.gz //这里解压在/opt目录下 2. 配置Hive，进入进入/opt/apache-hive-1.2.1-bin/conf目录,将hive-env.sh.template复制为hive-env.sh，并在hive-env.sh中添加

2016-11-05 23:07:02 823

原创基于Hadoop的朴素贝叶斯算法实现

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。以下为一个简单的例子：数据:天气情况和每天是否踢足球的记录表日期踢足球天气温度湿度风速1号否(0)晴天(0)热(0)

2016-11-05 16:35:32 6484 3

Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时，只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来

2016-11-05 15:16:25 5194 5

原创基于Hadoop的Kmeans算法实现

Kmeans算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标。即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。算法流程如下： 1. 从N条数据中随机选取K条数据作为初始聚类中心； 2. 对剩余的每条数据测量其到每个聚类中心的距离，并将其归到最近的中心的类； 3. 重新计算已

2016-11-05 13:31:54 5645

原创蓄水池抽样基于MapReduce的实现

问题：现在有一个很大的数据，假设有几千万条但不知道具体有多少条，如何在只遍历一次的情况下，随机取出其中K条数据？思路：可以将此问题抽象为蓄水池抽样问题。即，先把读取到的前K条数据放入列表中，对于第K+1个对象，以K/(K+1)的概率选择该对象；对于第K+2个对象，以K/(K+2)的概率选择该对象；以此类推，以K/M的概率选择第M个对象(M>K)。如果M被选中,则随机替换列表中的一个对象

2016-11-03 22:57:10 1605

原创 hadoop集群中解决查看任务的history报错问题

开启集群，运行MR任务，在8088端口查看任务信息的时候：出现如下错误：解决方法：首先将/tmp的权限修改为777，看是否可以解决问题。如果不行，再检查集群的时间是否统一。如果不统一，利用ntp将时间统一，即可查看。

2016-11-01 10:17:14 2244

原创 Java向mysql中插入数据优化问题

public static void main(String[] args) throws SQLException { // TODO Auto-generated method stub HashMap data = getData(); Object[] str = new Object[9]; int[] nums = {3,7,9,10,5,8,3,2}; Conn

2016-10-24 20:26:08 548

原创 shell脚本设置固定IP

首先进入root账户su然后：cdvim change_ip.shShell脚本如下：#!/bin/bash netmask=255.255.255.0 IP_PATH=/etc/sysconfig/network-scripts/ifcfg-eth0 GW_PATH=/etc/sysconfig/network read -p "Please inp

2016-09-17 15:31:59 2637

原创 CentOS搭建http yum源

1．首先启动httpd服务进入root账户 service httpd start即可查看配置文件：/etc/httpd/conf/httpd.conf可知：配置的文档根目录为：/var/www/html,端口号为：80

2016-09-17 14:10:56 1109

原创 Python+Selenium实现微博自动化爬虫

目的：利用python和selenium实现自动化爬虫所需工具： 1、python2.7 2、selenium库（pip install selenium或者easy_install selenium进行安装） 3、火狐浏览器安装好上述工具之后就可以开始微博爬虫啦！首先，打开你的python编辑器（本人使用的是sublime3），设置一下编码格式如下:

2016-08-11 09:48:44 3195

原创 Hadoop2.7与Spark1.6的集群搭建

机器说明：四台ubuntu系统的电脑，选取其中一台作为master，其余三台作为slaves。写在开头的两个坑： 1.虽然Linux支持一些特殊字符，但java里面并不支持。所以，Hadoop集群中的机器名不仅不能包含下划线，点也不可以。否则，在配置好集群之后运行jar程序的时候会报错。 2.在ubuntu系统下，配置ssh无密码登录的时候，需要修改ssd_c

2016-08-11 09:43:47 2582

Angelababy_huan的博客