青城雪-CSDN博客

原创关于数据仓库

什么是数据仓库：数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库能干什么？1）年度销售目标的指定，需要根据以往的历史报表进行决策，不能拍脑袋。2）如何优化业务流程例如...

2019-09-21 12:24:14 448

原创大数据技术之Sqoop

一、Sqoop简介Apache Sqoop™是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。注意：1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用于生产部署。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapredu...

2019-09-21 11:59:12 303

原创大数据技术之Flume（扇入）

扇入：多处Flume流入一处Flume.目标：flume11监控文件hive.log，flume-22监控某一个端口的数据流，flume11与flume-22将数据发送给flume-33，flume33将最终数据写入到HDFS。分步实现：1:创建flume11.conf，用于监控hive.log文件，同时sink数据到flume-33：#1 agenta1.sources = r1a...

2019-09-05 17:31:24 263

原创大数据技术之Flume（扇出）

扇出：一个Flume向几个Flume输出。目标：使用flume1监控文件变动，flume1将变动内容传递给flume-2，flume-2负责存储到HDFS。同时flume1将变动内容传递给flume-3，flume-3负责输出到local分步实现：1：创建flume1.conf，用于监控某文件的变动，同时产生两个channel和两个sink分别输送给flume2和flume3：#1.ag...

2019-09-05 17:15:16 480

原创大数据技术之Flume(实时读取目录文件到HDFS)

目标：使用flume监听整个目录的文件1:创建配置文件flume-dir.conf#1 Agenta3.sources = r3a3.sinks = k3a3.channels = c3#2 source#监控目录的类型a3.sources.r3.type = spooldir#监控目录的路径a3.sources.r3.spoolDir = /opt/module/flume1...

2019-09-05 16:53:27 385

原创大数据技术之Flume（实时读取本地文件到HDFS）

1：创建flume-hdfs.conf文件#1 agenta2.sources = r2a2.sinks = k2a2.channels = c2#2 sourcea2.sources.r2.type = execa2.sources.r2.command = tail -F /opt/plus(文件)a2.sources.r2.shell = /bin/bash -c#3 si...

2019-09-05 16:42:42 609

原创大数据技术之Flume（监控端口数据）

案例一：监控端口数据**目标：**Flume监控一端Console，另一端Console发送消息，使被监控端实时显示。分步实现：1) 安装telnet工具2) 创建Flume Agent配置文件flume-telnet.conf#定义Agenta1.sources = r1a1.sinks = k1a1.channels = c1#定义netcatsourcea1.source...

2019-09-05 16:30:44 239

原创大数据技术之Flume（理论）

一、Flume简介Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色2.1、Source用于采集数据，Source是产生数据流的地方，同...

2019-09-05 16:18:45 304

原创 SQL 学习之练习，所有问题走不出这四表。。。。

eg:如下表Student(S#,Sname,Sage,Ssex) 学生表：S#：学号； Sname：学生姓名； Sage：学生年龄；Ssex：性别Course(C#,Cname,T#) 课程表：C#,课程编号； Cname：课程名字； T#：教师编号SC(S#,C#,score) 成绩表：S#：学号； C#,课程编号 score：成绩Teacher(T#,Tn...

2019-09-05 15:03:15 346

原创 Zookeeper集群搭建

2019-09-01 09:32:15 149

原创 Java的向上造型和向下造型。。。

java class A { } class B extends A { } A a = new A(); B b = new B(); A a1 = b;// 向上造型 B b1 = (B) a1; // 向下造型 B b2 = a; // ClassCastException,a的类型是A,实例化也是A向上造型：父类引用指向子类对象（子类型，实例也是子类的...

2019-08-30 15:08:19 297

原创 Hadoop的企业优化……

MapReduce 跑的慢的原因？Mapreduce 程序效率的瓶颈在于两点：1）计算机性能 CPU、内存、磁盘健康、网络2）I/O 操作优化：（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spilt次数过多（7）merge次数过多等。MapReduce优化方法：Ma...

2019-08-26 23:54:46 225

原创自定义的序列化

需求1：统计手机号耗费的总上行流量、下行流量、总流量（序列化）1）需求：统计每一个手机号耗费的总上行流量、下行流量、总流量2）数据准备3）分析Map阶段：（1）读取一行数据，切分字段（2）抽取手机号、上行流量、下行流量（3）以手机号为key，bean对象为value输出，即context.write(手机号,bean);Reduce阶段：（1）累加上行流量和下行流量得到总流量。...

2019-08-26 16:42:23 641

原创手机自定义分区

Phionpartitionjavapackage phion;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.JobConf;import org.apache.hadoop.mapreduce.Partitioner;...

2019-08-23 15:28:57 263 1

原创 Shuffle机制

Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为shuffle。五、shuffle的调优

2019-08-23 13:52:20 708

原创复杂的文件清洗

LogBean类javapackage clean;import lombok.Getter;import lombok.Setter; @Setter @Getterpublic class LogBean { private String remote_addr;// 记录客户端的ip地址 private String remote_user;//...

2019-08-23 09:00:12 285

原创简单的日志清洗

原文件 web.txtMap类javapackage telephone;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Ma...

2019-08-22 23:26:40 667

原创 Hadoop的序列化

为什么要序列化？一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。什么是序列化？序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持...

2019-08-22 21:31:47 192

原创统计文件中的相同单词的个数

Map类javapackage mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.I...

2019-08-21 11:09:35 663

愿景.青城雪