WeiRongWork-CSDN博客

原创 spark基础学习

Spark生态圈1. Spark Core（重点）1.1 Spark特点1.2 spark的体系构架1.3 spark的安装配置1.3.1 准备工作：1.3.2 伪分布1.3.3 全分布1.3.4 HA1.3.5 spark任务的提交1.4 Spark Shell1.4.1 两种运行模式1.4.2 wordcount案例1.5 RDD弹性分布式数据集（重点）1.5.1 RDD特性1.5.2 Tra...

2019-10-21 19:23:29 1198

原创推荐项目

1.大数据推荐项目[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1LJM4rq4-1571656615976)(C:\Users\Fantome\AppData\Roaming\Typora\typora-user-images\1571642597459.png)]数据格式Movie【商品数据表】Rating【用户评分表】2.数据采集flume...

2019-10-21 19:17:03 479

原创企业日志项目

1. 企业日志项目项目数据流程图简图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0bSbaQmN-1571656482649)(C:\Users\Fantome\AppData\Roaming\Typora\typora-user-images\1571546012024.png)]集群规模集群环境FTP 6个Flume 6个节点Kafka brok...

2019-10-21 19:15:03 318

原创 kafka

KafKa1. kafka简述对数据缓存，消息传递的开源平台以统一，高通量，低等待的立项目标分布式的消息队列，topic元信息保存在zookeeper中，保证系统可用性2. 消息队列解耦消息队列就是在采集和处理之间做一个的大缓存，断开采集和处理的之间的耦合。冗余kafka可以对数据进行持久化，直到完全处理完才会删除数据。扩展性集群的通用优点。灵活性可...

2019-08-19 18:31:20 307

原创 scala IO基础操作

import java.io.{File, FileInputStream, FileOutputStream}import scala.io.Source._/** * scala IO操作 * */object IoDemo { def main(args: Array[String]): Unit = { //读取本地文件 println("-----...

2019-08-11 20:16:42 233

原创 Hbase基础

Hbase基础1. hbase操作1.1 基本操作1.2 JavaApi1.3 官方HBase-MapReduce1.4 与Hive的集成1.4.1 HBase与Hive的对比1.4.2 HBase与Hive集成使用1.5 与sqoop的集成1.6 节点的管理2. HBase的优化2.1 高可用2.2 Hadoop的通用性优化2.3 Zookeeper优化3.4、Zookeeper优化2.4 HB...

2019-07-30 22:46:58 217

原创 MapReduce：Hdfs2HBase

MapReduce：Hdfs2HBaseMap端Reduce端drive端导入Hbase的MapReduce的依赖<dependency> <groupId>org.apache.hbase<...

2019-07-30 01:18:56 234

原创 hbase基础语句练习

hbase基础语句练习创建表put数据：笨拙的方法查看数据删除表创建表创建一张表：person，有两个列簇（student，teacher）第一个列簇的版本保留三份，第二个两份。create 'person',{NAME=>'student',VERSIONS=>3},{NAME=>'teacher',VERSIONS=>2}put数据：笨拙的方法插入10行数...

2019-07-22 17:28:04 417

原创 HIVE-分桶练习

分桶练习1. 为什么分桶在理解了分区后，我们用对分区的理解去理解分桶，分区是对于一个超大的数据进行按一定方法风区放置，表现在HDFS上的现象就是建立多个文件夹来划分数据。在查询指定一个范围内数据时不需要对整个文件进行读取，而是对相对少量的文件夹进行读取就可。但在分区中，单单一个分区也会有大量的数据存在，其表示为一个文件夹内有极大单个文件，也会导致查询速度变慢，为了解决这一问题就需要使用到分桶...

2019-07-22 16:26:39 235

原创 azkaban案例使用

azkaban案例使用编写多job依赖：job1：上传倒排索引的文件到hdfsjob2依赖job1：进行倒排索引的第一次处理job3依赖job2：计算最终的倒排索引关于倒排索引参考https://blog.csdn.net/qq_40249304/article/details/93322984# job1 上传文件type=commandcommand=/opt/module/h...

2019-07-19 19:57:20 196

原创 azkaban的使用

azkaban的使用0.1 webserver的conf中配置0.2 executor的conf中配置1 azkaban使用1.1 azkaban的运行指令1.1.1 运行shell脚本1.1.2 运行jar文件1.1.3 job之间的并联1.2 azkaban的启动1.2.1 注意先启动executor服务器1.2.2 注意后启动web服务器plus 集群时间同步为网络时间0.1 webser...

2019-07-19 10:34:06 904

原创 sqoop的基础案例使用

sqoop的基础案例1. 部分案例1.1 mysql类数据库到HDFS1.2 mysql类数据库到Hive1.3 Hive或HDFS类到Mysql类1.4 sqoop脚本打包2. 详细参数2.1 数据库连接2.2 import2.2.1 公共参数2.2.2 Hive，HDFS相关参数2.3 export2.3.1 公用参数2.3.1 Hive，HDFS相关参数2.4 公用参数：hive2.5 命...

2019-07-17 19:37:21 902

原创 Hive基本操作

Hive基本操作1 DDL数据定义1.1 创建数据库1.2 修改数据库1.3 查询数据库1.3.1 显示数据库1.3.2 查看数据库详情1.3.3 切换当前数据库1.4 删除数据库1.5 创建表1.5.1 内部表（管理表）1.5.2 外部表1.6 分区表1.6.1 分区表基本操作1.6.2 分区表注意事项1.7 修改表1.7.1 重命名表1.7.2 增加、修改和删除表分区1.7.3 增加/修改/替...

2019-07-12 23:07:06 1857

原创 Hive和mysql的区别

Hive和mysql的区别1. 数据存储和运算2. 数据类型2.1 基本数据类型2.2 集合数据类型3. 表类型3.1 内部表3.2 外部表3.3 分区3.4 分桶1. 数据存储和运算（1）数据存储方式，Hive的数据是存储在HDFS上的，在Hive中进行解析编译后才被应用层识别。所以Hive的数据遵循HDFS的规则，例如NN元数据和DN备份，存储优化。（2）数据的查询运算上，在一些情况下（...

2019-07-10 15:02:09 1175

原创 Hive的安装配置

Hive的安装配置准备1 Hive安装及配置2 Hadoop集群配置3 Hive基本操作4 Hive元数据配置到MySql4.1 驱动拷贝4.2 配置Metastore到MySql4.3 Hive数据仓库位置配置准备hadoop集群mysql1 Hive安装及配置（1）把apache-hive-x.x.x-bin.tar.gz上传到linux的/opt/software目录下（2）解压...

2019-07-10 14:58:56 323

原创 flume 单个Agent 多对一多个sources 单个channels 单个sinks

运行flume-ng agent \--conf $FLUME_HOME/conf/ \--name many2one \--conf-file /opt/test/homework/flume.conf \-Dflume.root.logger==INFO,consoleconf配置文件# agent=>many2onemany2one.sources=source1 s...

2019-07-04 00:53:18 677

原创 flume的基本使用

flume的基本使用1 flume的基本运行方式1.1 通过端口来进行获取流1.2 通过监控文件来进行获取流1.3 通过监控文件夹2 flume的多对一和一对多2.1 多对一，ManyToOneflume1flume2flume32.2 一对多，OneToManyflume1flume2flume33 flume 拦截器（interceptors）3.1 对文件名添加时间3.2 文件夹添加主机名3...

2019-07-03 21:07:33 907

原创 Hadoop完全分布式HA+HF搭建

Hadoop完全分布式HA+HF搭建 centos 7.0

2019-06-29 14:12:18 537

原创 Hadoop完全分布式高可用（HA）搭建

hadoop完全分布式高可用（HA）搭建 centos 7.01. HA图解2. HA文件配置2.1 HDFS HA2.1.1 配置core-site.xml2.1.2 配置hdfs-site.xml2.2 YARN HA2.2.1 mapred-env.sh和yarn-env.sh2.2.2 yarn-site.xml3. HA启动承接上文Hadoop 完全分布式的搭建准备阶段zookee...

2019-06-29 14:11:00 412

原创 Zookeeper搭建

Zookeeper搭建1 zookeeper版本2 zookeeper文件配置提前准备jdk81 zookeeper版本zookeeper-3.4.14，因为是在学习阶段，就使用了较高的版本2 zookeeper文件配置

2019-06-29 12:31:39 151

原创 Hadoop-Job提交机制

Job提交机制MRJob在最后阶段来提交一个做业来前面编好的代码，这与scala中的延迟lazy类似，也类似于spark中的transformation和action。Job提交有两种方式，常用的**job.waitForCompletion(true);**和 job.submit();job.waitForCompletion(true);job.submit();我们来看看Job...

2019-06-27 23:52:51 1048

原创 Hadoop-MapReduce-单个Task

2019-06-27 16:51:34 146

原创 Hadoop-MapReduce-Yarn

2019-06-27 16:50:47 108

原创 Hadoop-MapReduce-Shuffle

2019-06-27 16:48:15 128

原创 Hadoop-自定义MR输出

Hadoop-自定义MR输出要求在原来MR成绩统计案例的基础上，将平均分x>=80分的分为A，80>x>=60的分为B,小于60的分为C，并输出到A.txt,B.txt,C.txt中MR成绩统计案例：https://blog.csdn.net/qq_40249304/article/details/92854157自定义流输出，类似于Partition，但重写部分与par...

2019-06-23 23:52:49 362

原创 Hadoop-MRjob串联之倒排索引

Hadoop-MRjob串联之倒排索引数据：文件a.txta a a bb c d文件b.txtc c c dd a b文件c.txtd a d cc f b需求统计所有文件中单词出现的个数，按TAB切分，并计算在各个文件中的出现的个数Map1->IndexMap1.javapackage day4_jobs_input.jobs.index;impor...

2019-06-22 14:13:20 433

原创 Hadoop-MRjob串联之共同好友

MRjob串联之共同好友数据描述：A的好友有B,C,D,F,RA:B,C,D,F,RB:B,D,RC:A,G,U,X,D,F,RD:B,F,D,G,RE:A,D,F,RF:B,C,D,T,Y,F,RG:A,C,Z,K,RH:B,C,F,G,L,RI:B,L,D,R,EJ:B,D,G,F,RK:S,B,C,A要求：找出A，B的共同好友，找出A，C的共同好友…（所有人两两...

2019-06-22 13:52:38 184

原创 Hadoop-倒排索引一个MR实现

数据：文件a.txta a a bb c d文件b.txtc c c dd a b文件c.txtd a d cc f b需求统计所有文件中单词出现的个数，按TAB切分，并计算在各个文件中的出现的个数Map阶段package day4_jobs_input.jobs.index1mr;import org.apache.hadoop.io.IntWritable;...

2019-06-21 22:00:23 202

原创 MR学生成绩等级统计

MR学生成绩等级统计数据：English,liudehua,80English,lijing,79English,nezha,85English,jinzha,60English,muzha,71English,houzi,99English,libai,88English,hanxin,66English,zhugeliang,95Math,liudehua,74Mat...

2019-06-20 00:27:29 479

原创 MR学生成绩统计

MR学生成绩统计数据：English,liudehua,80English,lijing,79English,nezha,85English,jinzha,60English,muzha,71English,houzi,99English,libai,88English,hanxin,66English,zhugeliang,95Math,liudehua,74Math,...

2019-06-20 00:27:11 666

原创大数据学习-hadoop搭建

hadoop完全分布式搭建 centos 7.0一. Hadoop通用部分1.1 环境变量1.2 文件配置1.2.1 集群连接文件配置1.2.2 env文件1.2.3 site文件配置启动Hadoop集群一. Hadoop通用部分1.1 环境变量1.java环境变量jdk版本：jdk1.8.0_191#....对应自己的jdk路径export JAVA_HOME=/.....expo...

2019-06-02 21:54:43 231

FantomeWork