自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FantomeWork

学习ING

  • 博客(31)
  • 收藏
  • 关注

原创 spark基础学习

Spark生态圈1. Spark Core(重点)1.1 Spark特点1.2 spark的体系构架1.3 spark的安装配置1.3.1 准备工作:1.3.2 伪分布1.3.3 全分布1.3.4 HA1.3.5 spark任务的提交1.4 Spark Shell1.4.1 两种运行模式1.4.2 wordcount案例1.5 RDD弹性分布式数据集(重点)1.5.1 RDD特性1.5.2 Tra...

2019-10-21 19:23:29 396

原创 推荐项目

1.大数据推荐项目[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1LJM4rq4-1571656615976)(C:\Users\Fantome\AppData\Roaming\Typora\typora-user-images\1571642597459.png)]数据格式Movie【商品数据表】Rating【用户评分表】2.数据采集flume...

2019-10-21 19:17:03 254

原创 企业日志项目

1. 企业日志项目项目数据流程图简图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0bSbaQmN-1571656482649)(C:\Users\Fantome\AppData\Roaming\Typora\typora-user-images\1571546012024.png)]集群规模集群环境FTP 6个Flume 6个节点Kafka brok...

2019-10-21 19:15:03 254

原创 kafka

KafKa1. kafka简述对数据缓存,消息传递的开源平台以统一,高通量,低等待的立项目标分布式的消息队列,topic元信息保存在zookeeper中,保证系统可用性2. 消息队列解耦消息队列就是在采集和处理之间做一个的大缓存,断开采集和处理的之间的耦合。冗余kafka可以对数据进行持久化,直到完全处理完才会删除数据。扩展性集群的通用优点。灵活性可...

2019-08-19 18:31:20 136

原创 scala IO基础操作

import java.io.{File, FileInputStream, FileOutputStream}import scala.io.Source._/** * scala IO操作 * */object IoDemo { def main(args: Array[String]): Unit = { //读取本地文件 println("-----...

2019-08-11 20:16:42 192

原创 Hbase基础

Hbase基础1. hbase操作1.1 基本操作1.2 JavaApi1.3 官方HBase-MapReduce1.4 与Hive的集成1.4.1 HBase与Hive的对比1.4.2 HBase与Hive集成使用1.5 与sqoop的集成1.6 节点的管理2. HBase的优化2.1 高可用2.2 Hadoop的通用性优化2.3 Zookeeper优化3.4、Zookeeper优化2.4 HB...

2019-07-30 22:46:58 174

原创 MapReduce:Hdfs2HBase

MapReduce:Hdfs2HBaseMap端Reduce端drive端导入Hbase的MapReduce的依赖<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-mapreduce --><dependency> <groupId>org.apache.hbase<...

2019-07-30 01:18:56 144

原创 hbase基础语句练习

hbase基础语句练习创建表put数据:笨拙的方法查看数据删除表创建表创建一张表:person,有两个列簇(student,teacher)第一个列簇的版本保留三份,第二个两份。create 'person',{NAME=>'student',VERSIONS=>3},{NAME=>'teacher',VERSIONS=>2}put数据:笨拙的方法插入10行数...

2019-07-22 17:28:04 295

原创 HIVE-分桶练习

分桶练习1. 为什么分桶在理解了分区后,我们用对分区的理解去理解分桶,分区是对于一个超大的数据进行按一定方法风区放置,表现在HDFS上的现象就是建立多个文件夹来划分数据。在查询指定一个范围内数据时不需要对整个文件进行读取,而是对相对少量的文件夹进行读取就可。但在分区中,单单一个分区也会有大量的数据存在,其表示为一个文件夹内有极大单个文件,也会导致查询速度变慢,为了解决这一问题就需要使用到分桶...

2019-07-22 16:26:39 169

原创 azkaban案例使用

azkaban案例使用编写多job依赖:job1:上传倒排索引的文件到hdfsjob2依赖job1:进行倒排索引的第一次处理job3依赖job2:计算最终的倒排索引关于倒排索引参考https://blog.csdn.net/qq_40249304/article/details/93322984# job1 上传文件type=commandcommand=/opt/module/h...

2019-07-19 19:57:20 131

原创 azkaban的使用

azkaban的使用0.1 webserver的conf中配置0.2 executor的conf中配置1 azkaban使用1.1 azkaban的运行指令1.1.1 运行shell脚本1.1.2 运行jar文件1.1.3 job之间的并联1.2 azkaban的启动1.2.1 注意先启动executor服务器1.2.2 注意后启动web服务器plus 集群时间同步为网络时间0.1 webser...

2019-07-19 10:34:06 650

原创 sqoop的基础案例使用

sqoop的基础案例1. 部分案例1.1 mysql类数据库到HDFS1.2 mysql类数据库到Hive1.3 Hive或HDFS类到Mysql类1.4 sqoop脚本打包2. 详细参数2.1 数据库连接2.2 import2.2.1 公共参数2.2.2 Hive,HDFS相关参数2.3 export2.3.1 公用参数2.3.1 Hive,HDFS相关参数2.4 公用参数:hive2.5 命...

2019-07-17 19:37:21 420

原创 Hive基本操作

Hive基本操作1 DDL数据定义1.1 创建数据库1.2 修改数据库1.3 查询数据库1.3.1 显示数据库1.3.2 查看数据库详情1.3.3 切换当前数据库1.4 删除数据库1.5 创建表1.5.1 内部表(管理表)1.5.2 外部表1.6 分区表1.6.1 分区表基本操作1.6.2 分区表注意事项1.7 修改表1.7.1 重命名表1.7.2 增加、修改和删除表分区1.7.3 增加/修改/替...

2019-07-12 23:07:06 544

原创 Hive和mysql的区别

Hive和mysql的区别1. 数据存储和运算2. 数据类型2.1 基本数据类型2.2 集合数据类型3. 表类型3.1 内部表3.2 外部表3.3 分区3.4 分桶1. 数据存储和运算(1)数据存储方式,Hive的数据是存储在HDFS上的,在Hive中进行解析编译后才被应用层识别。所以Hive的数据遵循HDFS的规则,例如NN元数据和DN备份,存储优化。(2)数据的查询运算上,在一些情况下(...

2019-07-10 15:02:09 1098

原创 Hive的安装配置

Hive的安装配置准备1 Hive安装及配置2 Hadoop集群配置3 Hive基本操作4 Hive元数据配置到MySql4.1 驱动拷贝4.2 配置Metastore到MySql4.3 Hive数据仓库位置配置准备hadoop集群mysql1 Hive安装及配置(1)把apache-hive-x.x.x-bin.tar.gz上传到linux的/opt/software目录下(2)解压...

2019-07-10 14:58:56 151

原创 flume 单个Agent 多对一 多个sources 单个channels 单个sinks

运行flume-ng agent \--conf $FLUME_HOME/conf/ \--name many2one \--conf-file /opt/test/homework/flume.conf \-Dflume.root.logger==INFO,consoleconf配置文件# agent=>many2onemany2one.sources=source1 s...

2019-07-04 00:53:18 601

原创 flume的基本使用

flume的基本使用1 flume的基本运行方式1.1 通过端口来进行获取流1.2 通过监控文件来进行获取流1.3 通过监控文件夹2 flume的多对一和一对多2.1 多对一,ManyToOneflume1flume2flume32.2 一对多,OneToManyflume1flume2flume33 flume 拦截器(interceptors)3.1 对文件名添加时间3.2 文件夹添加主机名3...

2019-07-03 21:07:33 410

原创 Hadoop完全分布式HA+HF搭建

Hadoop完全分布式HA+HF搭建 centos 7.0

2019-06-29 14:12:18 361

原创 Hadoop完全分布式高可用(HA)搭建

hadoop完全分布式高可用(HA)搭建 centos 7.01. HA图解2. HA文件配置2.1 HDFS HA2.1.1 配置core-site.xml2.1.2 配置hdfs-site.xml2.2 YARN HA2.2.1 mapred-env.sh和yarn-env.sh2.2.2 yarn-site.xml3. HA启动承接上文Hadoop 完全分布式的搭建准备阶段zookee...

2019-06-29 14:11:00 257

原创 Zookeeper搭建

Zookeeper搭建1 zookeeper版本2 zookeeper文件配置提前准备jdk81 zookeeper版本zookeeper-3.4.14,因为是在学习阶段,就使用了较高的版本2 zookeeper文件配置

2019-06-29 12:31:39 97

原创 Hadoop-Job提交机制

Job提交机制MRJob在最后阶段来提交一个做业来前面编好的代码,这与scala中的延迟lazy类似,也类似于spark中的transformation和action。Job提交有两种方式,常用的**job.waitForCompletion(true);**和 job.submit();job.waitForCompletion(true);job.submit();我们来看看Job...

2019-06-27 23:52:51 919

原创 Hadoop-MapReduce-单个Task

2019-06-27 16:51:34 100

原创 Hadoop-MapReduce-Yarn

2019-06-27 16:50:47 73

原创 Hadoop-MapReduce-Shuffle

2019-06-27 16:48:15 96

原创 Hadoop-自定义MR输出

Hadoop-自定义MR输出要求在原来MR成绩统计案例的基础上,将平均分x>=80分的分为A,80>x>=60的分为B,小于60的分为C,并输出到A.txt,B.txt,C.txt中MR成绩统计案例:https://blog.csdn.net/qq_40249304/article/details/92854157自定义流输出,类似于Partition,但重写部分与par...

2019-06-23 23:52:49 319

原创 Hadoop-MRjob串联之倒排索引

Hadoop-MRjob串联之倒排索引数据:文件a.txta a a bb c d文件b.txtc c c dd a b文件c.txtd a d cc f b需求统计所有文件中单词出现的个数,按TAB切分,并计算在各个文件中的出现的个数Map1->IndexMap1.javapackage day4_jobs_input.jobs.index;impor...

2019-06-22 14:13:20 384

原创 Hadoop-MRjob串联之共同好友

MRjob串联之共同好友数据描述:A的好友有B,C,D,F,RA:B,C,D,F,RB:B,D,RC:A,G,U,X,D,F,RD:B,F,D,G,RE:A,D,F,RF:B,C,D,T,Y,F,RG:A,C,Z,K,RH:B,C,F,G,L,RI:B,L,D,R,EJ:B,D,G,F,RK:S,B,C,A要求:找出A,B的共同好友,找出A,C的共同好友…(所有人两两...

2019-06-22 13:52:38 146

原创 Hadoop-倒排索引一个MR实现

数据:文件a.txta a a bb c d文件b.txtc c c dd a b文件c.txtd a d cc f b需求统计所有文件中单词出现的个数,按TAB切分,并计算在各个文件中的出现的个数Map阶段package day4_jobs_input.jobs.index1mr;import org.apache.hadoop.io.IntWritable;...

2019-06-21 22:00:23 166

原创 MR学生成绩等级统计

MR学生成绩等级统计数据:English,liudehua,80English,lijing,79English,nezha,85English,jinzha,60English,muzha,71English,houzi,99English,libai,88English,hanxin,66English,zhugeliang,95Math,liudehua,74Mat...

2019-06-20 00:27:29 408

原创 MR学生成绩统计

MR学生成绩统计数据:English,liudehua,80English,lijing,79English,nezha,85English,jinzha,60English,muzha,71English,houzi,99English,libai,88English,hanxin,66English,zhugeliang,95Math,liudehua,74Math,...

2019-06-20 00:27:11 608

原创 大数据学习-hadoop搭建

hadoop完全分布式搭建 centos 7.0一. Hadoop通用部分1.1 环境变量1.2 文件配置1.2.1 集群连接文件配置1.2.2 env文件1.2.3 site文件配置启动Hadoop集群一. Hadoop通用部分1.1 环境变量1.java环境变量jdk版本:jdk1.8.0_191#....对应自己的jdk路径export JAVA_HOME=/.....expo...

2019-06-02 21:54:43 186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除