自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (4)
  • 收藏
  • 关注

原创 11分布式数据仓库 HIVE -- HIVE案例实战2 SLA

--========== order_created ==========--/*10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.33+0110103043501575 2014-05-

2014-12-25 14:02:42 760

原创 10分布式数据仓库 HIVE -- HIVE案例实战1 apache common日志分析

1 日志分析场景某网站的apache common每天产生一个日志日志文件。将每一天的日志文件,按照日期作为分期,导入HIVE数据仓库。通过hive分析网站用户行为,如:PV,注册数,UVip                          时间                                           访问地址                         

2014-12-24 16:07:53 1449

原创 09分布式数据仓库 HIVE -- HIVE优化

HIVE执行流程explain extended select city,count(1) from user group by city;   //查看HQL对应的mapreduce流程树1表的优化1:表分区(例如:日志按天存放)2:表分桶2HQL优化1: join优化 set hive.optimize.skewjoin=true;数据倾斜 se

2014-12-24 10:16:29 671

原创 08分布式数据仓库 HIVE -- UDF和UDAF

UDF(user defined function)用于对每一条记录产生作用的自定义函数。package hive;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class MyUDF extends UDF { private boolean ev

2014-12-24 08:40:42 751

原创 07分布式数据仓库 HIVE -- 函数

HIVE函数,自带函数,和自定义函数自带函数100多个包括,基本函数(map),聚合函数(reduce),集合函数(map),其他函数自定义函数包括UDF(map) ,UDAF(reduce)。-------------------------------------------------------------------------------------------------

2014-12-23 19:13:24 460

原创 06分布式数据仓库 HIVE -- 数据的查询(HQL Hive Query Language)

where查询select * from user where name = ‘liguozhong’;      where 操作是在多个map端进行的。group byselect name age count(1),avg(age),sum(money),count(distinct age) form user where sex = 'b' group by

2014-12-23 13:24:50 984

原创 05分布式数据仓库 HIVE -- 分区表的操作

创建分区create table user(name string)partitioned by (dt string,b string);添加分区alter table user add if not exists partition(dt='20140405',b='boy');删除分区alter table user dro

2014-12-23 12:39:44 451

原创 04分布式数据仓库 HIVE -- 导出分析结果

1 hadoop:get和text命令,整个表对应的文件都导出去。2 insert overwrite local directory ‘/home/resultDir’ row format delimited fields terminated by '\t' select name,age from user where sex = 1;

2014-12-22 17:07:22 502

原创 03分布式数据仓库 HIVE -- 数据的相关操作

执行hive语句的方式1:cli(command line interface)2:jdbc3:beeline4:hwi1 hive -命令(和hql执行有关)hive -V(-S) -e "select * from user" > /home/data;              //  -e 在linux下直接运行hqlhive -f

2014-12-22 15:56:25 654

转载 干净卸载 Cloudera CDH 5 beta2(转载)

Cloudera 的官方介绍:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_uninstall_CM.html操作的系统是Centos OS6.3操作需要root权限,先切换rootsudo

2014-12-22 11:07:48 629

原创 02分布式数据仓库 HIVE -- 表的相关操作

建表create table user(name string,password string);   简单建表CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMIN

2014-12-19 21:31:44 506

原创 01分布式数据仓库 HIVE -- 数据类型-文件格式

HIVE的数据类型包括基本,和复杂两种类型。数据类型所占字节开始支持版本TINYINT1byte,-128 ~ 127 SMALLINT2byte,-32,768 ~ 32,767 INT4byte,-2,147,483,648 ~ 2,147,483,647

2014-12-19 21:00:05 614

转载 Trident API(转载)

一、概要     1.1 Storm(简介)     Storm是一个实时的可靠地分布式流计算框架。     具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data)、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。1.2 T

2014-12-19 19:57:03 520

转载 RPM方式安装MySQL5.6(转载)

                        分类: MySQL 2014-01-28 13:21 3081人阅读 评论(2)收藏 举报RPM方式安装MySQL5.6a. 检查MySQL及相关RPM包,是否安装,如果有安装,则移除(rpm –e 名称)1[root@localhost ~]# rpm -qa

2014-12-19 14:23:55 510

转载 Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)(转载)

6条回复转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5。系统环境4台联想R510服务器,其中master节点4核心、8GB,其它节点双核心、4GB。网卡:100M。共有硬盘6TB。网络环境内网。Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选)。

2014-12-19 12:25:59 1609

转载 离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程(转载)

时间 2014-10-13 01:44:00 博客园-原创精华区相似文章 (0)原文  http://www.cnblogs.com/jasondan/p/4011153.html 关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由C

2014-12-19 12:24:39 867

转载 CentOS6.5菜鸟之旅:安装SUN JDK1.7和Tomcat7 (转载)

一、前言                            CentOS6.5系统自带Open JDK1.7、1.6和1.5,但OpenJDK部分内容与SUN JDK不兼容,因此打算重新安装SUN JDK1.7来开发。 二、卸载Open JDK                      1. 通过rpm命令查看Open JDK具体版本信息# rpm -qa |

2014-12-19 11:32:13 471

转载 hbase 0.98.1集群安装 (转载)

本文将基于hbase 0.98.1讲解其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net/bluishglc/article/details/24593597,转载请注明出处!1. 安装与配置1.1. 前置条件确保已经安装了hadoop并保证hadoop运行正常。关于hbase与hadoop的

2014-12-19 11:30:47 479

转载 hadoop 2.2.0集群安装 (转载)

1. 网络设置禁用防火墙service iptables stop禁用IPv6打开/etc/modprobe.d/dist.conf,添加:alias net-pf-10 offalias ipv6 off重新系统之后,可以通过命令:lsmod|grep ipv6查看ipv6模块是否已经不再加载

2014-12-19 11:27:35 380

原创 07数据挖掘原理-数据挖掘

数据挖掘的发展过程。 1关系型数据库 -》2数据仓库 -》3数据挖掘-》4大数据挖掘。xx网北京地区2013年1月份的注册数是多少,                                             关系型数据库的解决方案:查询单个数据库,mysql,特点一个数据库。xx网北京地区,上海地区,广州地区2013年1月份的注册数个是多少 ,    数据仓库

2014-12-18 15:23:11 615

原创 06数据挖掘原理-数据分析 数据相关性

相关系分析是分析变量对结果的影响力,也可以说是变量和结果的相关性。变量有数字变量(1,2的差异),类别变量(北京,上海,地区的差异。)相关系分析包括,1:方差分析(单因素,双因素的类别变量的相关性),2:卡方分析(也是类别变量的相关性),3:相关分析(数字变量的相关性)。    相关分析(数字变量)           1: 二元相关 (连续变量,等级变量)  

2014-12-18 14:22:35 940

原创 05数据挖掘原理-数据分析 方法论和方法

数据分析方法论是知道数据分析方法的思想。        数据分析方法论           1:PEST ,政治,经济,社会,技术四个维度分析。用于行业分析           2:4P,产品,价格,渠道,促销四个维度分析。用于营销策划           3:逻辑树 ,讲问题分层罗列,逐步向下展开。用于业务问题专题分析           4:用户行为分析 ,认知

2014-12-18 13:05:29 505

原创 04数据挖掘原理-数据分析 数据描述

    数据描述包括,1:描述统计,2:    数学的统计方法包括,1:描述统计(集中趋势,离散程度,相关性),2:推断统计(参数估计,假设检验)    集中趋势(代表一个数据集的代表值)           1: 众数 ,多次重复出现的数的多个数。           2:中位数,排序后,排在中间位置的多个数。           3:四分数,排序后,

2014-12-18 12:55:30 505

原创 03数据挖掘原理-数据分析 数据处理

数据处理,目的是为了把抽样完的原始数据,转换成符合分析算法需求(哪些用户,哪些字段,哪些时间窗口),的标准化数据。数据处理包括,1:数据审核(用户,字段,数据缺失,数据错误),2:缺失值处理(均值中位数固定值填充,正态随机,决策树算法),3:去极值(填充,丢弃),4:数据转换(归一化,z分数,对数转换)。

2014-12-18 12:26:01 576

原创 02数据挖掘原理-数据分析 数据准备

数据准备包含 ,1:数据获取(来源),2:数据抽样      数据获取的来源包括:1:调研,2:设备采集,3人工输入     ,4 各类文档,5外部数据库      数据抽样方式包括,1:概率抽样(简单随机抽样,分层抽样,整群抽样,等距抽样),2:非概率抽样(便利抽样,判断抽样,配额抽样)。简单随机抽样的基本方法,1:数字特征发,2:矩法,3:最大似然法,4:最小二乘法,5:贝叶斯法

2014-12-18 11:25:51 516

原创 01数据挖掘原理-数据分析

(转载网上图片) 数据挖掘的基础是数据分析,做数据分析,1数据准备 --》2数据处理--》3数据加工

2014-12-18 11:03:18 583

转载 linux各文件夹的作用

/bin 二进制可执行命令 /dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示 /lib 标准程序设计库,又叫动态链接共享库,作用类似windows里的.dll文件 /sbin 系统管理命令,这里存放的是系统管

2014-12-18 10:20:18 408

转载 文件系统的类型

 LINUX有四种基本文件系统类型:普通文件、目录文件、连接文件和特殊文件,可用file命令来识别。 普通文件:如文本文件、C语言元代码、SHELL脚本、二进制的可执行文件等,可用cat、less、more、vi、emacs来察看内容,用mv来改名。 目录文件:包括文件名、子目录名及其指针。它是LINUX储存文件名的唯一地方,可用ls列出目录文件。 连接文件

2014-12-18 10:18:14 426

转载 贝叶斯分类(classify-20newsgroups)

2014年1月23日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: 贝叶斯分类(classify-20newsgroups)一 理论分析Tackling the Poor Assumptions of Naive Bayes Text Classifiers贝叶斯的多项式模型如下公式。表示一个文档由一系列单词构

2014-12-18 09:35:24 2189

转载 kmeans集群算法(cluster-reuters)

2014年1月26日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: kmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,距离最小者为当前点的集群归属。3 重新对每个集群计算新的中心,并

2014-12-18 09:34:27 1176

转载 Fuzzykmeans集群算法(cluster-reuters)

2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Fuzzykmeans集群算法(cluster-reuters)理论分析集群中心点计算1 随机从待分类的向量中选出20个作为20个集群的中心。2 对所有的点,计算其和每个中心的距离,得到点归属于每个集群的概率。3 重新对每个集群计算新的

2014-12-18 09:33:42 1028

转载 Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)(转载)

2014年2月14日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Canopy集群算法(org.apache.mahout.clustering.canopy.CanopyDriver)理论分析集群中心点计算1 选择T1和T2,T1>T2。其中T1为弱归属距离,T2为强归属距离。2 对每个点进行到中心点的

2014-12-18 09:32:49 570

转载 Parallel-ALS推荐算法(factorize-movielens-1M)(转载)

2014年1月24日刘 小飞发表回复原创文章,转载请注明: 转载自慢慢的回味本文链接地址: Parallel-ALS推荐算法(factorize-movielens-1M)一 理论分析Large-scale Parallel Collaborative Filtering for the Netflix Prize设表示为user和m

2014-12-18 09:24:24 1773

原创 01 机器学习算法库Mahout mahout概念和支持的算法库

1 研究mahout之前要想给mahout定位好,他是hadoop生态圈里做机器学习的子系统,提供了多种数据挖掘的算法。      数据挖掘是从海量数据中挖掘出有用的商业价值,如客户分类,新闻分类等。挖掘类型分为,聚类,分类,预测,关联。4种类型的挖掘任务。数据挖掘的过程 原始数据 --》 抽取特征向量  --》  训练模型 -》评估模型 -》 最终模型。      mah

2014-12-17 08:55:38 1249

原创 02 机器学习算法库Mahout - 协同过滤算法实现推荐功能

(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)1 那么问题又来了  ????    如何实现一个推荐系统?    1 : 基于内容的推荐,比如用户

2014-12-16 16:15:49 1144

原创 05分布式NOSQL HBASE - Coprocessor协调器

(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)1 那么问题又来了  ????1:如果要对HBase的User表,做一些sum,orderby等常用的聚合怎

2014-12-15 15:32:45 851

原创 04分布式NOSQL HBASE - HBase过滤器

(原文地址:http://blog.csdn.net/codemosi/article/category/2777041,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)HBase 提供scan 方式来做批量数据扫描。并提供filter机制提供更为精准的数据过滤。并且过滤过程

2014-12-15 10:42:50 649

原创 03分布式NOSQL HBASE - mapreduce批量读取HBase的数据

1 那么问题来了  ????1:如果有一大票数据比如1000万条,或者批量的插入HBase的表中,HBase提供的java API 中的PUT方法,一条接一条记录的插入方式效率上就非常慢。2:如果要取出HBase一个表里的1000万条数据。用GET一条一条的来,效率也是可想而知,scan的方法批量取出1000万条记录没什么问题,但问题是这个api是在单机上运行的,取庞大的数据效

2014-12-15 10:18:08 797

原创 02分布式NOSQL HBASE - JAVA API 操作HBase

HBase,可以使用shell界面管理数据,也提供java api 来操作Hbase上的表的数据。所有Column均以二进制格式存储,所以在api中要不断的类型转换。   //1 准备HBase上下文 HBaseAdmin 和user表对象hTable  Configuration conf = HBaseConfiguration.create();  conf.se

2014-12-15 10:17:07 756

原创 01分布式NOSQL HBASE HBase 概述和数据模型

Hbase 是在hadoop上的一个分布式的NOSQL数据库。Row KeyTimestampColumn Family  1    r1t3url=http://title=

2014-12-15 10:15:37 550

Effective Java中文

这是一个写好应用的外国产品,帮助找到线上应用存在的error。包括返回错误异常等。

2019-05-07

Zookeeper 在携程的使用和场景

Zookeeper 在携程的使用和场景,生产线上的正式场景例子。引导我的zookeeper的系列文章

2015-03-24

zkoss开发培训资料

zkoss开发培训资料,和大家分享,仅为帮java web开发人员减轻开发压力,我也是java web开发,为了做效果好的界面,曾经深受过easyui和extjs深深的恶心过。根据项目中辛苦整理的培训文档,转载请注明下载地址,如果有需要源码可以联系我。

2014-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除