2014年12月_codemosi

原创 11分布式数据仓库 HIVE -- HIVE案例实战2 SLA

--========== order_created ==========--/*10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.33+0110103043501575 2014-05-

2014-12-25 14:02:42 760

原创 10分布式数据仓库 HIVE -- HIVE案例实战1 apache common日志分析

1 日志分析场景某网站的apache common每天产生一个日志日志文件。将每一天的日志文件，按照日期作为分期，导入HIVE数据仓库。通过hive分析网站用户行为，如:PV，注册数,UVip 时间访问地址

2014-12-24 16:07:53 1449

原创 09分布式数据仓库 HIVE -- HIVE优化

HIVE执行流程explain extended select city,count(1) from user group by city; //查看HQL对应的mapreduce流程树1表的优化1：表分区（例如：日志按天存放）2：表分桶2HQL优化1： join优化 set hive.optimize.skewjoin=true;数据倾斜 se

2014-12-24 10:16:29 671

原创 08分布式数据仓库 HIVE -- UDF和UDAF

UDF（user defined function）用于对每一条记录产生作用的自定义函数。package hive;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class MyUDF extends UDF { private boolean ev

2014-12-24 08:40:42 751

原创 07分布式数据仓库 HIVE -- 函数

HIVE函数，自带函数，和自定义函数自带函数100多个包括，基本函数（map），聚合函数（reduce），集合函数（map），其他函数自定义函数包括UDF（map），UDAF（reduce）。-------------------------------------------------------------------------------------------------

2014-12-23 19:13:24 460

原创 06分布式数据仓库 HIVE -- 数据的查询（HQL Hive Query Language）

where查询select * from user where name = ‘liguozhong’; where 操作是在多个map端进行的。group byselect name age count(1),avg(age),sum(money),count(distinct age) form user where sex = 'b' group by

2014-12-23 13:24:50 984

原创 05分布式数据仓库 HIVE -- 分区表的操作

创建分区create table user(name string)partitioned by (dt string,b string);添加分区alter table user add if not exists partition(dt='20140405',b='boy');删除分区alter table user dro

2014-12-23 12:39:44 451

原创 04分布式数据仓库 HIVE -- 导出分析结果

1 hadoop：get和text命令，整个表对应的文件都导出去。2 insert overwrite local directory ‘/home/resultDir’ row format delimited fields terminated by '\t' select name,age from user where sex = 1;

2014-12-22 17:07:22 502

原创 03分布式数据仓库 HIVE -- 数据的相关操作

执行hive语句的方式1：cli（command line interface）2：jdbc3：beeline4：hwi1 hive -命令（和hql执行有关）hive -V(-S) -e "select * from user" > /home/data; // -e 在linux下直接运行hqlhive -f

2014-12-22 15:56:25 654

转载干净卸载 Cloudera CDH 5 beta2(转载)

Cloudera 的官方介绍：http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_uninstall_CM.html操作的系统是Centos OS6.3操作需要root权限，先切换rootsudo

2014-12-22 11:07:48 629

原创 02分布式数据仓库 HIVE -- 表的相关操作

建表create table user(name string,password string); 简单建表CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMIN

2014-12-19 21:31:44 506

原创 01分布式数据仓库 HIVE -- 数据类型-文件格式

HIVE的数据类型包括基本，和复杂两种类型。数据类型所占字节开始支持版本TINYINT1byte，-128 ~ 127 SMALLINT2byte，-32,768 ~ 32,767 INT4byte,-2,147,483,648 ~ 2,147,483,647

2014-12-19 21:00:05 614

转载 Trident API（转载）

一、概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架。具体就不多说了，举个例子，它的一个典型的大数据实时计算应用场景：从Kafka消息队列读取消息（可以是logs,clicks,sensor data）、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。1.2 T

2014-12-19 19:57:03 520

转载 RPM方式安装MySQL5.6（转载）

分类： MySQL 2014-01-28 13:21 3081人阅读评论(2)收藏举报RPM方式安装MySQL5.6a. 检查MySQL及相关RPM包，是否安装，如果有安装，则移除（rpm –e 名称）1[root@localhost ~]# rpm -qa

2014-12-19 14:23:55 510

转载 Cloudera Manager 5 和 CDH5 本地（离线）安装指南（Hadoop集群搭建）（转载）

6条回复转载请注明出处：http://www.wangyongkui.com/hadoop-cdh5。系统环境4台联想R510服务器，其中master节点4核心、8GB，其它节点双核心、4GB。网卡：100M。共有硬盘6TB。网络环境内网。Centos6.5 x64（安装系统时尽量把开发包安装齐全，另master节点需要Mysql可以在安装系统时勾选）。

2014-12-19 12:25:59 1609

转载离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程（转载）

时间 2014-10-13 01:44:00 博客园-原创精华区相似文章 (0)原文 http://www.cnblogs.com/jasondan/p/4011153.html 关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由C

2014-12-19 12:24:39 867

转载 CentOS6.5菜鸟之旅：安装SUN JDK1.7和Tomcat7 （转载）

一、前言　　　　　　　　　　　　　　　　　　　　　　　　 CentOS6.5系统自带Open JDK1.7、1.6和1.5，但OpenJDK部分内容与SUN JDK不兼容，因此打算重新安装SUN JDK1.7来开发。二、卸载Open JDK　　　　　　　　　　　　　　　　　　　　 1. 通过rpm命令查看Open JDK具体版本信息# rpm -qa |

2014-12-19 11:32:13 471

转载 hbase 0.98.1集群安装（转载）

本文将基于hbase 0.98.1讲解其在linux集群上的安装方法，并对一些重要的设置项进行解释，本文原文链接：http://blog.csdn.net/bluishglc/article/details/24593597，转载请注明出处！1. 安装与配置1.1. 前置条件确保已经安装了hadoop并保证hadoop运行正常。关于hbase与hadoop的

2014-12-19 11:30:47 479

转载 hadoop 2.2.0集群安装（转载）

1. 网络设置禁用防火墙service iptables stop禁用IPv6打开/etc/modprobe.d/dist.conf，添加：alias net-pf-10 offalias ipv6 off重新系统之后，可以通过命令：lsmod|grep ipv6查看ipv6模块是否已经不再加载

2014-12-19 11:27:35 380

原创 07数据挖掘原理-数据挖掘

数据挖掘的发展过程。 1关系型数据库 -》2数据仓库 -》3数据挖掘-》4大数据挖掘。xx网北京地区2013年1月份的注册数是多少，关系型数据库的解决方案：查询单个数据库，mysql，特点一个数据库。xx网北京地区，上海地区，广州地区2013年1月份的注册数个是多少，数据仓库

2014-12-18 15:23:11 615

原创 06数据挖掘原理-数据分析数据相关性

相关系分析是分析变量对结果的影响力，也可以说是变量和结果的相关性。变量有数字变量（1,2的差异），类别变量（北京，上海，地区的差异。）相关系分析包括，1：方差分析（单因素，双因素的类别变量的相关性），2：卡方分析（也是类别变量的相关性），3：相关分析（数字变量的相关性）。相关分析（数字变量） 1：二元相关（连续变量，等级变量）

2014-12-18 14:22:35 940

原创 05数据挖掘原理-数据分析方法论和方法

数据分析方法论是知道数据分析方法的思想。数据分析方法论 1：PEST ，政治，经济，社会，技术四个维度分析。用于行业分析 2：4P，产品，价格，渠道，促销四个维度分析。用于营销策划 3：逻辑树，讲问题分层罗列，逐步向下展开。用于业务问题专题分析 4：用户行为分析，认知

2014-12-18 13:05:29 505

原创 04数据挖掘原理-数据分析数据描述

数据描述包括，1：描述统计,2: 数学的统计方法包括，1：描述统计（集中趋势，离散程度，相关性），2：推断统计（参数估计，假设检验）集中趋势（代表一个数据集的代表值） 1：众数，多次重复出现的数的多个数。 2：中位数，排序后，排在中间位置的多个数。 3：四分数，排序后，

2014-12-18 12:55:30 505

原创 03数据挖掘原理-数据分析数据处理

数据处理，目的是为了把抽样完的原始数据，转换成符合分析算法需求（哪些用户，哪些字段，哪些时间窗口），的标准化数据。数据处理包括，1：数据审核（用户，字段，数据缺失，数据错误），2：缺失值处理（均值中位数固定值填充，正态随机，决策树算法），3：去极值（填充，丢弃），4：数据转换(归一化，z分数，对数转换)。

2014-12-18 12:26:01 576

原创 02数据挖掘原理-数据分析数据准备

数据准备包含，1:数据获取（来源），2：数据抽样数据获取的来源包括：1：调研，2：设备采集，3人工输入，4 各类文档，5外部数据库数据抽样方式包括，1：概率抽样（简单随机抽样，分层抽样，整群抽样，等距抽样），2：非概率抽样（便利抽样，判断抽样，配额抽样）。简单随机抽样的基本方法，1：数字特征发，2：矩法，3：最大似然法，4：最小二乘法，5：贝叶斯法

2014-12-18 11:25:51 516

原创 01数据挖掘原理-数据分析

（转载网上图片）数据挖掘的基础是数据分析，做数据分析，1数据准备 --》2数据处理--》3数据加工

2014-12-18 11:03:18 583

转载 linux各文件夹的作用

/bin 二进制可执行命令 /dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点，比如用户user的主目录就是/home/user，可以用~user表示 /lib 标准程序设计库，又叫动态链接共享库，作用类似windows里的.dll文件 /sbin 系统管理命令，这里存放的是系统管

2014-12-18 10:20:18 408

转载文件系统的类型

LINUX有四种基本文件系统类型：普通文件、目录文件、连接文件和特殊文件，可用file命令来识别。普通文件：如文本文件、C语言元代码、SHELL脚本、二进制的可执行文件等，可用cat、less、more、vi、emacs来察看内容，用mv来改名。目录文件：包括文件名、子目录名及其指针。它是LINUX储存文件名的唯一地方，可用ls列出目录文件。连接文件

2014-12-18 10:18:14 426

转载贝叶斯分类（classify-20newsgroups）

2014年1月23日刘小飞发表回复原创文章，转载请注明：转载自慢慢的回味本文链接地址: 贝叶斯分类（classify-20newsgroups）一理论分析Tackling the Poor Assumptions of Naive Bayes Text Classifiers贝叶斯的多项式模型如下公式。表示一个文档由一系列单词构

2014-12-18 09:35:24 2189

转载 kmeans集群算法(cluster-reuters)

2014年1月26日刘小飞发表回复原创文章，转载请注明：转载自慢慢的回味本文链接地址: kmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点，计算其和每个中心的距离，距离最小者为当前点的集群归属。3 重新对每个集群计算新的中心，并

2014-12-18 09:34:27 1176

转载 Fuzzykmeans集群算法(cluster-reuters)

2014年2月14日刘小飞发表回复原创文章，转载请注明：转载自慢慢的回味本文链接地址: Fuzzykmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点，计算其和每个中心的距离，得到点归属于每个集群的概率。3 重新对每个集群计算新的

2014-12-18 09:33:42 1028

转载 Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)（转载）

2014年2月14日刘小飞发表回复原创文章，转载请注明：转载自慢慢的回味本文链接地址: Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)理论分析集群中心点计算1 选择T1和T2，T1>T2。其中T1为弱归属距离，T2为强归属距离。2 对每个点进行到中心点的

2014-12-18 09:32:49 570

转载 Parallel-ALS推荐算法(factorize-movielens-1M)（转载）

2014年1月24日刘小飞发表回复原创文章，转载请注明：转载自慢慢的回味本文链接地址: Parallel-ALS推荐算法(factorize-movielens-1M)一理论分析Large-scale Parallel Collaborative Filtering for the Netflix Prize设表示为user和m

2014-12-18 09:24:24 1773

原创 01 机器学习算法库Mahout mahout概念和支持的算法库

1 研究mahout之前要想给mahout定位好，他是hadoop生态圈里做机器学习的子系统，提供了多种数据挖掘的算法。数据挖掘是从海量数据中挖掘出有用的商业价值，如客户分类，新闻分类等。挖掘类型分为，聚类，分类，预测，关联。4种类型的挖掘任务。数据挖掘的过程原始数据 --》抽取特征向量 --》训练模型 -》评估模型 -》最终模型。 mah

2014-12-17 08:55:38 1249

原创 02 机器学习算法库Mahout - 协同过滤算法实现推荐功能

（原文地址：http://blog.csdn.net/codemosi/article/category/2777041，转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中，做个爱分享的人）1 那么问题又来了 ???? 如何实现一个推荐系统？ 1 ：基于内容的推荐，比如用户

2014-12-16 16:15:49 1144

原创 05分布式NOSQL HBASE - Coprocessor协调器

（原文地址：http://blog.csdn.net/codemosi/article/category/2777041，转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中，做个爱分享的人）1 那么问题又来了 ????1：如果要对HBase的User表，做一些sum，orderby等常用的聚合怎

2014-12-15 15:32:45 851

原创 04分布式NOSQL HBASE - HBase过滤器

（原文地址：http://blog.csdn.net/codemosi/article/category/2777041，转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中，做个爱分享的人）HBase 提供scan 方式来做批量数据扫描。并提供filter机制提供更为精准的数据过滤。并且过滤过程

2014-12-15 10:42:50 649

原创 03分布式NOSQL HBASE - mapreduce批量读取HBase的数据

1 那么问题来了 ????1：如果有一大票数据比如1000万条，或者批量的插入HBase的表中，HBase提供的java API 中的PUT方法，一条接一条记录的插入方式效率上就非常慢。2：如果要取出HBase一个表里的1000万条数据。用GET一条一条的来，效率也是可想而知，scan的方法批量取出1000万条记录没什么问题，但问题是这个api是在单机上运行的，取庞大的数据效

2014-12-15 10:18:08 797

原创 02分布式NOSQL HBASE - JAVA API 操作HBase

HBase,可以使用shell界面管理数据，也提供java api 来操作Hbase上的表的数据。所有Column均以二进制格式存储，所以在api中要不断的类型转换。 //1 准备HBase上下文 HBaseAdmin 和user表对象hTable Configuration conf = HBaseConfiguration.create(); conf.se

2014-12-15 10:17:07 756

原创 01分布式NOSQL HBASE HBase 概述和数据模型

Hbase 是在hadoop上的一个分布式的NOSQL数据库。Row KeyTimestampColumn Family　　1　　　　r1t3url=http://title=

2014-12-15 10:15:37 550

Effective Java中文

Zookeeper 在携程的使用和场景

zkoss开发培训资料

空空如也