- 博客(17)
- 收藏
- 关注
原创 flume
Flume: ** Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、传输、聚合的系统。 ** Flume仅仅运行在linux环境下 ** flume.apache.org(Documentation--Flume User Guide)Flume体系结构(Architecture):(见图)Source: 用于采集数据,So
2017-04-21 11:38:59 548
原创 HDFS Federation
====HDFS Federation=====================================HDFS Federation 业务1 namenode1(hdfs01) 日志文件[log] --> 分析网站PV、UV... 业务2 namenode2(hdfs02) 数据库[table] --> 用户的购买记
2017-04-21 11:37:10 416
原创 分析
数据来源: 2015082818、2015082819统计每日数据: 日期 UV PV 登录人数 游客人数 平均访问时长 二跳率 独立IP数20150828 23 891 12 20 2s ... 20150829 231
2017-04-21 11:34:42 448
原创 压缩-储存
====压缩======================================================= Hive常用压缩格式: bzip2, gzip, lzo, snappy ...注意:hive里要使用某种压缩格式,hadoop必须支持才行,因为hive依赖于Hadoop查看hadoop是否支持某种压缩的命令:$ bin/hadoop chec
2017-04-18 14:50:35 460
原创 sqoop
sqoop框架(工具)简介 ** RDBMS HDFS、HIVE、HBASE ** 原先数据库集群已有的数据 --> HDFS --> 分析 ** Hive分析结果 --> RDBMS(mysql) --> 报表展示 ** sqoop.apache.org ** apache版本 ** CDH版本
2017-04-18 14:49:07 1952
原创 分区表 UDF
===分区表=================================================分区表实例:按照时间来生成和管理日志文件20160830 ** 2016083001.log ** 2016083002.log ** 2016083003.log ...20160831 ** 2016083101.log
2017-04-18 14:47:16 851
原创 Hive
Hive ** Facebook开源 ** 官网:hive.apache.org ** Hive是基于Hadoop的一个数据仓库工具 Hive与数据库:数据库: mysql、oracle、DB2、sqlserver数据仓库 !== 数据库 换言之, Hive不是数据库为什么要选择hive ** MapReduce编程成本高
2017-04-13 09:25:30 739
原创 MapReduce常用数据类型
MapReduce: ** ----MapReduce常用数据类型----------------ByteWritable:单字节数值IntWritable:整型数LongWritable:长整型数FloatWritable:浮点数DoubleWritable:双字节数值BooleanWritable:标准布尔型数值 Text:使用
2017-04-13 09:22:34 6044 1
原创 Zookeeper
====zookeeper==============================================ZooKeeper -- 动物园管理员 hadoop -- 大象 Hive -- 蜜蜂 pig -- 猪 HBase -- 马 ... ** apache的顶级开源项目 ** zo
2017-04-13 09:19:59 983
原创 集群搭建
====Hadoop集群======================================================注:注意修改自己的ID** 集群** 伪分布式 集群规划: blue01 blue02 blue03 HDFS namenode
2017-04-11 09:55:39 325
原创 mapreduce
Google三篇论文 Hadoop GFS –> HDFS mapreduce –> Mapreduce bigtable –> HBaseHadoop ** common ** HDFS ** mapreduce ** YARN mapreduce ** 分布
2017-04-07 15:10:54 524
原创 HDFS
====HDFS================================================HDFS(Hadoop Distributed File System) ** block:(见图) ** HDFS把文件划分成block存储在不同节点上 --默认128M(以前是64M,今后可能会变为256M) --dfs
2017-04-06 15:31:28 593
原创 伪分布式
企业大数据来源: 1、企业内部 ** 日志文件(apache、nginx、tomcat、resin、jboss..) ** 数据库(oracle、mysql、DB2) ** 用户行为数据 2、企业外部 ** 爬虫(python) ** 第三方购买(上海数据交易中心) 大数
2017-04-05 10:06:31 743
原创 Linux系统安装及网络配置
1.修改主机名(不能以数字开头,大小写英文字符,数字等) 第一种方式:hostname [主机名] 临时生效 第二种方式:# vi /etc/sysconfig/network 命令行模式 键盘键入i,左下角出现----INSERT---- INSERT插入模式: HOSTNANM
2017-04-01 13:58:37 856
原创 Linux硬盘分区
[root@com Desktop]# fdisk /dev/sdb Device contains neither a valid DOS partition table, nor Sun, SGI or OSF disklabel Building a new DOS disklabel with disk identifier 0x75e69255. Changes will remai
2017-04-01 11:43:41 769 1
原创 Linux基础命令
Linux基础 一、基础命令 1、ls:列出当前目录下的的文件或目录 2、ls -a :列出当前目录下所有的文件和目录(包括隐藏文件) 3、ls -l :显示文件的详细信息(长格式的信息查看),相当于 ll ls -hl:显示文件的详细信息和文件的大小 ls -al:列出当前目录下所有的文件和目录的详细信息 ls -
2017-03-31 19:46:55 1135 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人