- 博客(47)
- 资源 (4)
- 收藏
- 关注
原创 11分布式数据仓库 HIVE -- HIVE案例实战2 SLA
--========== order_created ==========--/*10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.33+0110103043501575 2014-05-
2014-12-25 14:02:42 760
原创 10分布式数据仓库 HIVE -- HIVE案例实战1 apache common日志分析
1 日志分析场景某网站的apache common每天产生一个日志日志文件。将每一天的日志文件,按照日期作为分期,导入HIVE数据仓库。通过hive分析网站用户行为,如:PV,注册数,UVip 时间 访问地址
2014-12-24 16:07:53 1449
原创 09分布式数据仓库 HIVE -- HIVE优化
HIVE执行流程explain extended select city,count(1) from user group by city; //查看HQL对应的mapreduce流程树1表的优化1:表分区(例如:日志按天存放)2:表分桶2HQL优化1: join优化 set hive.optimize.skewjoin=true;数据倾斜 se
2014-12-24 10:16:29 671
原创 08分布式数据仓库 HIVE -- UDF和UDAF
UDF(user defined function)用于对每一条记录产生作用的自定义函数。package hive;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class MyUDF extends UDF { private boolean ev
2014-12-24 08:40:42 751
原创 07分布式数据仓库 HIVE -- 函数
HIVE函数,自带函数,和自定义函数自带函数100多个包括,基本函数(map),聚合函数(reduce),集合函数(map),其他函数自定义函数包括UDF(map) ,UDAF(reduce)。-------------------------------------------------------------------------------------------------
2014-12-23 19:13:24 460
原创 06分布式数据仓库 HIVE -- 数据的查询(HQL Hive Query Language)
where查询select * from user where name = ‘liguozhong’; where 操作是在多个map端进行的。group byselect name age count(1),avg(age),sum(money),count(distinct age) form user where sex = 'b' group by
2014-12-23 13:24:50 984
原创 05分布式数据仓库 HIVE -- 分区表的操作
创建分区create table user(name string)partitioned by (dt string,b string);添加分区alter table user add if not exists partition(dt='20140405',b='boy');删除分区alter table user dro
2014-12-23 12:39:44 451
原创 04分布式数据仓库 HIVE -- 导出分析结果
1 hadoop:get和text命令,整个表对应的文件都导出去。2 insert overwrite local directory ‘/home/resultDir’ row format delimited fields terminated by '\t' select name,age from user where sex = 1;
2014-12-22 17:07:22 502
原创 03分布式数据仓库 HIVE -- 数据的相关操作
执行hive语句的方式1:cli(command line interface)2:jdbc3:beeline4:hwi1 hive -命令(和hql执行有关)hive -V(-S) -e "select * from user" > /home/data; // -e 在linux下直接运行hqlhive -f
2014-12-22 15:56:25 654
转载 干净卸载 Cloudera CDH 5 beta2(转载)
Cloudera 的官方介绍:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_uninstall_CM.html操作的系统是Centos OS6.3操作需要root权限,先切换rootsudo
2014-12-22 11:07:48 629
原创 02分布式数据仓库 HIVE -- 表的相关操作
建表create table user(name string,password string); 简单建表CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMIN
2014-12-19 21:31:44 506
原创 01分布式数据仓库 HIVE -- 数据类型-文件格式
HIVE的数据类型包括基本,和复杂两种类型。数据类型所占字节开始支持版本TINYINT1byte,-128 ~ 127 SMALLINT2byte,-32,768 ~ 32,767 INT4byte,-2,147,483,648 ~ 2,147,483,647
2014-12-19 21:00:05 614
转载 Trident API(转载)
一、概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架。 具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data)、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。1.2 T
2014-12-19 19:57:03 520
转载 RPM方式安装MySQL5.6(转载)
分类: MySQL 2014-01-28 13:21 3081人阅读 评论(2)收藏 举报RPM方式安装MySQL5.6a. 检查MySQL及相关RPM包,是否安装,如果有安装,则移除(rpm –e 名称)1[root@localhost ~]# rpm -qa
2014-12-19 14:23:55 510
转载 Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)(转载)
6条回复转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5。系统环境4台联想R510服务器,其中master节点4核心、8GB,其它节点双核心、4GB。网卡:100M。共有硬盘6TB。网络环境内网。Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选)。
2014-12-19 12:25:59 1609
转载 离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程(转载)
时间 2014-10-13 01:44:00 博客园-原创精华区相似文章 (0)原文 http://www.cnblogs.com/jasondan/p/4011153.html 关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由C
2014-12-19 12:24:39 867
转载 CentOS6.5菜鸟之旅:安装SUN JDK1.7和Tomcat7 (转载)
一、前言 CentOS6.5系统自带Open JDK1.7、1.6和1.5,但OpenJDK部分内容与SUN JDK不兼容,因此打算重新安装SUN JDK1.7来开发。 二、卸载Open JDK 1. 通过rpm命令查看Open JDK具体版本信息# rpm -qa |
2014-12-19 11:32:13 471
转载 hbase 0.98.1集群安装 (转载)
本文将基于hbase 0.98.1讲解其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net/bluishglc/article/details/24593597,转载请注明出处!1. 安装与配置1.1. 前置条件确保已经安装了hadoop并保证hadoop运行正常。关于hbase与hadoop的
2014-12-19 11:30:47 479
转载 hadoop 2.2.0集群安装 (转载)
1. 网络设置禁用防火墙service iptables stop禁用IPv6打开/etc/modprobe.d/dist.conf,添加:alias net-pf-10 offalias ipv6 off重新系统之后,可以通过命令:lsmod|grep ipv6查看ipv6模块是否已经不再加载
2014-12-19 11:27:35 380
原创 07数据挖掘原理-数据挖掘
数据挖掘的发展过程。 1关系型数据库 -》2数据仓库 -》3数据挖掘-》4大数据挖掘。xx网北京地区2013年1月份的注册数是多少, 关系型数据库的解决方案:查询单个数据库,mysql,特点一个数据库。xx网北京地区,上海地区,广州地区2013年1月份的注册数个是多少 , 数据仓库
2014-12-18 15:23:11 615
原创 06数据挖掘原理-数据分析 数据相关性
相关系分析是分析变量对结果的影响力,也可以说是变量和结果的相关性。变量有数字变量(1,2的差异),类别变量(北京,上海,地区的差异。)相关系分析包括,1:方差分析(单因素,双因素的类别变量的相关性),2:卡方分析(也是类别变量的相关性),3:相关分析(数字变量的相关性)。 相关分析(数字变量) 1: 二元相关 (连续变量,等级变量)
2014-12-18 14:22:35 940
原创 05数据挖掘原理-数据分析 方法论和方法
数据分析方法论是知道数据分析方法的思想。 数据分析方法论 1:PEST ,政治,经济,社会,技术四个维度分析。用于行业分析 2:4P,产品,价格,渠道,促销四个维度分析。用于营销策划 3:逻辑树 ,讲问题分层罗列,逐步向下展开。用于业务问题专题分析 4:用户行为分析 ,认知
2014-12-18 13:05:29 505
原创 04数据挖掘原理-数据分析 数据描述
数据描述包括,1:描述统计,2: 数学的统计方法包括,1:描述统计(集中趋势,离散程度,相关性),2:推断统计(参数估计,假设检验) 集中趋势(代表一个数据集的代表值) 1: 众数 ,多次重复出现的数的多个数。 2:中位数,排序后,排在中间位置的多个数。 3:四分数,排序后,
2014-12-18 12:55:30 505
原创 03数据挖掘原理-数据分析 数据处理
数据处理,目的是为了把抽样完的原始数据,转换成符合分析算法需求(哪些用户,哪些字段,哪些时间窗口),的标准化数据。数据处理包括,1:数据审核(用户,字段,数据缺失,数据错误),2:缺失值处理(均值中位数固定值填充,正态随机,决策树算法),3:去极值(填充,丢弃),4:数据转换(归一化,z分数,对数转换)。
2014-12-18 12:26:01 576
原创 02数据挖掘原理-数据分析 数据准备
数据准备包含 ,1:数据获取(来源),2:数据抽样 数据获取的来源包括:1:调研,2:设备采集,3人工输入 ,4 各类文档,5外部数据库 数据抽样方式包括,1:概率抽样(简单随机抽样,分层抽样,整群抽样,等距抽样),2:非概率抽样(便利抽样,判断抽样,配额抽样)。简单随机抽样的基本方法,1:数字特征发,2:矩法,3:最大似然法,4:最小二乘法,5:贝叶斯法
2014-12-18 11:25:51 516
转载 linux各文件夹的作用
/bin 二进制可执行命令 /dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示 /lib 标准程序设计库,又叫动态链接共享库,作用类似windows里的.dll文件 /sbin 系统管理命令,这里存放的是系统管
2014-12-18 10:20:18 408
转载 文件系统的类型
LINUX有四种基本文件系统类型:普通文件、目录文件、连接文件和特殊文件,可用file命令来识别。 普通文件:如文本文件、C语言元代码、SHELL脚本、二进制的可执行文件等,可用cat、less、more、vi、emacs来察看内容,用mv来改名。 目录文件:包括文件名、子目录名及其指针。它是LINUX储存文件名的唯一地方,可用ls列出目录文件。 连接文件
2014-12-18 10:18:14 426
转载 贝叶斯分类(classify-20newsgroups)
2014年1月23日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: 贝叶斯分类(classify-20newsgroups)一 理论分析Tackling the Poor Assumptions of Naive Bayes Text Classifiers贝叶斯的多项式模型如下公式。表示一个文档由一系列单词构
2014-12-18 09:35:24 2189
转载 kmeans集群算法(cluster-reuters)
2014年1月26日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: kmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,距离最小者为当前点的集群归属。3 重新对每个集群计算新的中心,并
2014-12-18 09:34:27 1176
转载 Fuzzykmeans集群算法(cluster-reuters)
2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Fuzzykmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,得到点归属于每个集群的概率。3 重新对每个集群计算新的
2014-12-18 09:33:42 1028
转载 Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)(转载)
2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)理论分析集群中心点计算1 选择T1和T2,T1>T2。其中T1为弱归属距离,T2为强归属距离。2 对每个点进行到中心点的
2014-12-18 09:32:49 570
转载 Parallel-ALS推荐算法(factorize-movielens-1M)(转载)
2014年1月24日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Parallel-ALS推荐算法(factorize-movielens-1M)一 理论分析Large-scale Parallel Collaborative Filtering for the Netflix Prize设表示为user和m
2014-12-18 09:24:24 1773
原创 01 机器学习算法库Mahout mahout概念和支持的算法库
1 研究mahout之前要想给mahout定位好,他是hadoop生态圈里做机器学习的子系统,提供了多种数据挖掘的算法。 数据挖掘是从海量数据中挖掘出有用的商业价值,如客户分类,新闻分类等。挖掘类型分为,聚类,分类,预测,关联。4种类型的挖掘任务。数据挖掘的过程 原始数据 --》 抽取特征向量 --》 训练模型 -》评估模型 -》 最终模型。 mah
2014-12-17 08:55:38 1249
原创 02 机器学习算法库Mahout - 协同过滤算法实现推荐功能
(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)1 那么问题又来了 ???? 如何实现一个推荐系统? 1 : 基于内容的推荐,比如用户
2014-12-16 16:15:49 1144
原创 05分布式NOSQL HBASE - Coprocessor协调器
(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)1 那么问题又来了 ????1:如果要对HBase的User表,做一些sum,orderby等常用的聚合怎
2014-12-15 15:32:45 851
原创 04分布式NOSQL HBASE - HBase过滤器
(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)HBase 提供scan 方式来做批量数据扫描。并提供filter机制提供更为精准的数据过滤。并且过滤过程
2014-12-15 10:42:50 649
原创 03分布式NOSQL HBASE - mapreduce批量读取HBase的数据
1 那么问题来了 ????1:如果有一大票数据比如1000万条,或者批量的插入HBase的表中,HBase提供的java API 中的PUT方法,一条接一条记录的插入方式效率上就非常慢。2:如果要取出HBase一个表里的1000万条数据。用GET一条一条的来,效率也是可想而知,scan的方法批量取出1000万条记录没什么问题,但问题是这个api是在单机上运行的,取庞大的数据效
2014-12-15 10:18:08 797
原创 02分布式NOSQL HBASE - JAVA API 操作HBase
HBase,可以使用shell界面管理数据,也提供java api 来操作Hbase上的表的数据。所有Column均以二进制格式存储,所以在api中要不断的类型转换。 //1 准备HBase上下文 HBaseAdmin 和user表对象hTable Configuration conf = HBaseConfiguration.create(); conf.se
2014-12-15 10:17:07 756
原创 01分布式NOSQL HBASE HBase 概述和数据模型
Hbase 是在hadoop上的一个分布式的NOSQL数据库。Row KeyTimestampColumn Family 1 r1t3url=http://title=
2014-12-15 10:15:37 550
zkoss开发培训资料
2014-07-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人