自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 flume

Flume:    ** Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、传输、聚合的系统。    ** Flume仅仅运行在linux环境下    ** flume.apache.org(Documentation--Flume User Guide)Flume体系结构(Architecture):(见图)Source: 用于采集数据,So

2017-04-21 11:38:59 548

原创 HDFS Federation

====HDFS Federation=====================================HDFS Federation    业务1    namenode1(hdfs01)    日志文件[log]    --> 分析网站PV、UV...        业务2    namenode2(hdfs02)    数据库[table]    --> 用户的购买记

2017-04-21 11:37:10 416

原创 分析

数据来源: 2015082818、2015082819统计每日数据:        日期          UV   PV   登录人数      游客人数  平均访问时长  二跳率  独立IP数20150828    23     891    12            20            2s            ...    20150829    231  

2017-04-21 11:34:42 448

原创 压缩-储存

====压缩=======================================================    Hive常用压缩格式: bzip2, gzip, lzo, snappy ...注意:hive里要使用某种压缩格式,hadoop必须支持才行,因为hive依赖于Hadoop查看hadoop是否支持某种压缩的命令:$ bin/hadoop chec

2017-04-18 14:50:35 460

原创 sqoop

sqoop框架(工具)简介    ** RDBMS   HDFS、HIVE、HBASE    ** 原先数据库集群已有的数据 --> HDFS --> 分析    ** Hive分析结果 -->  RDBMS(mysql) --> 报表展示        ** sqoop.apache.org        ** apache版本        ** CDH版本

2017-04-18 14:49:07 1952

原创 分区表 UDF

===分区表=================================================分区表实例:按照时间来生成和管理日志文件20160830    ** 2016083001.log    ** 2016083002.log    ** 2016083003.log    ...20160831    ** 2016083101.log

2017-04-18 14:47:16 851

原创 Hive

Hive    ** Facebook开源    ** 官网:hive.apache.org    ** Hive是基于Hadoop的一个数据仓库工具    Hive与数据库:数据库: mysql、oracle、DB2、sqlserver数据仓库 !== 数据库  换言之, Hive不是数据库为什么要选择hive    ** MapReduce编程成本高

2017-04-13 09:25:30 739

原创 MapReduce常用数据类型

MapReduce:    **  ----MapReduce常用数据类型----------------ByteWritable:单字节数值IntWritable:整型数LongWritable:长整型数FloatWritable:浮点数DoubleWritable:双字节数值BooleanWritable:标准布尔型数值        Text:使用

2017-04-13 09:22:34 6044 1

原创 Zookeeper

====zookeeper==============================================ZooKeeper  -- 动物园管理员    hadoop -- 大象    Hive   -- 蜜蜂    pig       -- 猪    HBase  -- 马    ...    ** apache的顶级开源项目    ** zo

2017-04-13 09:19:59 983

原创 集群搭建

====Hadoop集群======================================================注:注意修改自己的ID** 集群** 伪分布式    集群规划:        blue01           blue02              blue03 HDFS    namenode                    

2017-04-11 09:55:39 325

原创 mapreduce

Google三篇论文 Hadoop GFS –> HDFS mapreduce –> Mapreduce bigtable –> HBaseHadoop ** common ** HDFS ** mapreduce ** YARN mapreduce ** 分布

2017-04-07 15:10:54 524

原创 HDFS

====HDFS================================================HDFS(Hadoop Distributed File System)    ** block:(见图)    ** HDFS把文件划分成block存储在不同节点上        --默认128M(以前是64M,今后可能会变为256M)        --dfs

2017-04-06 15:31:28 593

原创 伪分布式

企业大数据来源:    1、企业内部        ** 日志文件(apache、nginx、tomcat、resin、jboss..)        ** 数据库(oracle、mysql、DB2)        ** 用户行为数据    2、企业外部        ** 爬虫(python)        ** 第三方购买(上海数据交易中心)    大数

2017-04-05 10:06:31 743

转载 Linux find命令 | 菜鸟教程

http://www.runoob.com/linux/linux-comm-find.html

2017-04-05 09:49:04 2524

原创 Linux系统安装及网络配置

1.修改主机名(不能以数字开头,大小写英文字符,数字等)    第一种方式:hostname [主机名]    临时生效    第二种方式:# vi /etc/sysconfig/network        命令行模式            键盘键入i,左下角出现----INSERT----        INSERT插入模式:            HOSTNANM

2017-04-01 13:58:37 856

原创 Linux硬盘分区

[root@com Desktop]# fdisk /dev/sdb Device contains neither a valid DOS partition table, nor Sun, SGI or OSF disklabel Building a new DOS disklabel with disk identifier 0x75e69255. Changes will remai

2017-04-01 11:43:41 769 1

原创 Linux基础命令

Linux基础 一、基础命令    1、ls:列出当前目录下的的文件或目录    2、ls -a :列出当前目录下所有的文件和目录(包括隐藏文件)    3、ls -l :显示文件的详细信息(长格式的信息查看),相当于 ll       ls -hl:显示文件的详细信息和文件的大小       ls -al:列出当前目录下所有的文件和目录的详细信息       ls -

2017-03-31 19:46:55 1135 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除