hadoop
李泽辰
这个作者很懒,什么都没留下…
展开
-
推荐一份完整的大数据教学视频
最近又收集了一份关于大数据的完整的视频教程,感兴趣的的小伙伴可以看一下,教程非常全面。下面一起来看一下,关于获取方式在文末。首先来看一下完整的课程目录,可以看出教程很详细,从java基础到项目实战,可以说是包含了从事大数据行业所需的所有技能,如果你想转行大数据行业,这一份课程基本足够了。这份课程即适合入门和又适合提高,因为里面的项目实战视频可以帮助大家提高。一份完整的...原创 2019-04-29 14:25:19 · 2601 阅读 · 2 评论 -
spark streaming整合kafka-直连的方式
import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.I0Itec.zkclient.ZkClient...原创 2018-10-27 10:22:57 · 802 阅读 · 1 评论 -
kafka的相关命令
实时计算相关技术 Strom / JStrom Spark Streming Flink 实时性高 有延迟 实时性高 吞吐量较低 吞吐量高 吞吐量高 只能实时计算 离线+实时 离线+实时 算子...原创 2018-10-26 19:03:23 · 230 阅读 · 0 评论 -
数组和链表的区别
数组和链表是两种基本的数据结构,他们在内存存储上的表现不一样,所以也有各自的特点。大致总结一下特点和区别,拿几个人一起去看电影时坐座位为例。数组的特点在内存中,数组是一块连续的区域。 拿上面的看电影来说,这几个人在电影院必须坐在一起。 数组需要预留空间,在使用前要先申请占内存的大小,可能会浪费内存空间。 比如看电影时,为了保证10个人能坐在一起,必须提前订好10个连续的位置。这样的好...转载 2018-10-24 09:54:51 · 107 阅读 · 0 评论 -
HDFS写数据的详细流程
写数据1、 client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client 请求第一个 block 该传输到哪些 DataNode 服务器上;3、 NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的 DataNode 的地址如:A,B,C;注:H...转载 2018-10-23 15:28:02 · 1158 阅读 · 0 评论 -
Hbase的Java API
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop...原创 2018-10-28 17:31:10 · 115 阅读 · 0 评论 -
Map Reduce用tree Map实现·topn
首先有如下如数,要统计每个页面的访问量,然后计算访问量最大的五个页面2017/07/28 qq.com/a2017/07/28 qq.com/bx2017/07/28 qq.com/by2017/07/28 qq.com/by32017/07/28 qq.com/news2017/07/28 sina.com/news/socail2017/07/28 163.com/ac2...原创 2018-10-28 16:53:56 · 356 阅读 · 0 评论 -
sparkSQL2.X
package cn.edu360.day6import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}/**...原创 2018-10-22 18:33:26 · 281 阅读 · 0 评论 -
sparkSQL
spark 1.x SQL的基本用法(两种)1.创建SparkContext2.创建SQLContext3.创建RDD4.创建一个类,并定义类的成员变量5.整理数据并关联class6.将RDD转换成DataFrame(导入隐式转换)7.将DataFrame注册成临时表8.书写SQL(Transformation)9.执行Action----------------------...原创 2018-10-22 18:17:04 · 111 阅读 · 0 评论 -
spark日期格式转换
object FilterUtilsV4{ //如果object使用了成员变量,那么会出现线程安全问题,因为object是一个单例,多线程可以同时调用这个方法 //E代表星期几 //val dateFormat = new SimpleDateFormat("yyyy年MM月dd日,E,HH:mm:ss") //FastDateFormat是线程安全的 val dateFo...原创 2018-10-22 16:14:09 · 4494 阅读 · 0 评论 -
yarn的执行流程
1) 用户向YARN 中提交应用程序, 其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。2) ResourceManager 为该应用程序分配第一个Container, 并与对应的NodeManager 通信,要求它在这个Container 中启动应用程序的ApplicationMaster。3) ...原创 2018-10-30 18:30:53 · 1171 阅读 · 0 评论 -
mapreduce执行的大致流程
1/对文件进行切片规划2/启动相应数量的maptask进程3/调用FileInputFormat中的RecordReader,读一行数据并封装为k1v14/调用自定义的map函数,并将k1v1传给map5/收集map的输出,进行分区和排序6/reduce task任务启动,并从map端拉取数据7/reduce task调用自定义的reduce函数进行处理8/调用outp...原创 2018-10-30 18:56:37 · 448 阅读 · 0 评论 -
史上最全大数据学习资料
史上最全大数据学习资料阿甘阿甘琐记昨天本教程包含视频和书籍两部分,视频主要是各大培训机构的教学视频,书籍主要是题主自己收集的。关注微信公众号”阿甘琐记“,后台回复”大数据“,即可免费领取。下面有公众号二维码。视频教程:一:xx课堂大数据教学视频这是一个比较完整的教学视频,从基础知识到项目实战,一应俱全,真正的从入门到精通。具体包含的内容如下图所示:主要有Java、Ha...原创 2020-10-24 14:10:02 · 2997 阅读 · 1 评论 -
kafka启动命令
启动 ./bin/kafka-server-start.sh –daemon config/server.properties //创建主题 $>kafka-topics.sh --zookeeper s202:2181 --topic calllog --create --replication-factor 3 --partitions 4 //查...原创 2018-12-09 20:16:34 · 3510 阅读 · 0 评论 -
sparkStreaming直连kafka
package IpPartitionimport kafka.common.TopicAndPartitionimport kafka.serializer.StringDecoderimport kafka.message.MessageAndMetadataimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.apac...原创 2018-12-09 12:04:10 · 350 阅读 · 0 评论 -
hadoop系统中yarn的作用
ResourceManager,NodeManager,ApplicationMaster,Container,同样下面亦是yarn结构图。ResourceManager是全局的,负责对于系统中的所有资源有最高的支配权。ApplicationMaster 每一个job有一个ApplicationMaster 。NodeManager,NodeManager是基本的计算框架。No...转载 2018-12-08 11:42:58 · 3383 阅读 · 1 评论 -
RDD简介
RDD(弹性分布式数据集,RDD里面并不存放真正的数据,对RDD进行操作会在Driver端转换成Task,下发到Executor计算分散在多台机器上的数据;RDD是一个代理,对代理进行操作,他会生成Task,帮你计算;操作代理就像操作本地集合一样;RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合...原创 2018-12-07 21:30:05 · 1049 阅读 · 0 评论 -
使用maven下载所有依赖
新建一个文件夹,把pom.xml文件拷贝进去,如图 然后cmd到这个目录,可以直接在地址栏输入cmd回车,运行下面两条命令即可成功第一种方法 mvn -DoutputDirectory=./lib -DgroupId=com.it18zhang -DartifactId=CallLogConsumerModule -Dv...原创 2018-11-12 19:05:31 · 12275 阅读 · 0 评论 -
kafka的消费者代码
kafka的消费者代码 import java.io.IOException;import java.util.Arrays;import java.util.Collection;import java.util.Properties; import org.apache.kafka.clients.consumer.Consumer;import org.apache.ka...转载 2018-11-12 18:35:16 · 5891 阅读 · 0 评论 -
flume的配置
把数据从日志文件读到kafkaa1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = exec a1.sources.r1.command = tail -F /home/airib/work/log.log #...转载 2018-11-08 19:56:24 · 148 阅读 · 0 评论 -
Hbase原理详解
1.Hadoop生态系统 Zookeeper分布式监控中心: HDFS的NameNode和MapReduce高可用。 zookeeper内部维护一个内存数据库。 存储Hbase一些数据(后续再谈) MapReduce:分布式计算框架 Hive:数据仓库 HBase:非关系型数据库 HDFS:分布式文件系统 Flume:日志收集工具(离线分析,...转载 2018-10-30 20:34:49 · 306 阅读 · 0 评论 -
spark自定义排序规则
package cn.edu360.day5import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by zx on 2017/10/10. */object CustomSort1 { def main(args: Array[Strin...原创 2018-10-22 15:57:47 · 2496 阅读 · 0 评论 -
spark的checkpoint
checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大,任务中计算链可能会很长,这时如果任务中途运行出错,那么任务的整个需要重算非常耗时,因此,有必要将计算代价较大的RDD checkpoint一下,当下游RDD计算出错时,可以直接从checkpoint过的RDD那里读取数据继续算。import org.apache.spark.SparkContext...原创 2018-10-22 13:55:41 · 114 阅读 · 0 评论 -
hive 窗口分析函数
原始数据:0: jdbc:hive2://localhost:10000> select * from t_access;+----------------+---------------------------------+-----------------------+--------------+--+| t_access.ip | t_access.u...原创 2018-10-15 13:25:48 · 105 阅读 · 0 评论 -
RDD常用算子介绍只mappatitionwithIndex和mappatition
mappatition和mappatitionWithIndexmappatition 该函数和map函数类似,只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。如果在映射的过程中需要频繁创建额外的对象,使用mapPartitions要比map高效的过。比如,将RDD中的所有数据通过JDBC连接写入数据库,如果使用map函数,可能要为每一个元素都创建一个conne...转载 2018-10-18 09:54:04 · 329 阅读 · 0 评论 -
mapreduce控制map分区、reduce排序实现TopN
首次写一个javabean类,并实现writablecomplle接口,writableComparable有两方面的作用,首先writable是为了这个javabean从map发送到reduce时实现的序列化接口,Compare是因为reduce阶段在处理数据有一个默认的排序规则(先处理哪条数据?)默认按key排序,现在重写这个javabean的排序规则,在reduce阶段按照固定的排序规则处理...原创 2018-10-13 10:41:29 · 482 阅读 · 0 评论 -
flume配置-动态文件采集
#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = execag1.sources.source1.command = tail -F /root/log/access_log # 配置sink组件ag1.s...原创 2018-10-12 15:54:16 · 1250 阅读 · 0 评论 -
提交mapreduce要配置的参数
linux平台提交到yarnimport java.io.IOException;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable...原创 2018-10-04 15:36:22 · 906 阅读 · 0 评论 -
HDFS上传文件-流方式
import java.io.FileInputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import javax.ws.rs.core.NewCookie;import org.apache.commons.compress.utils.IOUt...原创 2018-10-03 17:08:55 · 1070 阅读 · 0 评论 -
hafs查看文件信息
import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.commons.io.FileUtils;import org.apache.hadoop.conf.Confi...原创 2018-10-03 17:05:15 · 330 阅读 · 0 评论 -
hdfs上传文件
import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs....原创 2018-10-03 17:02:43 · 103 阅读 · 0 评论 -
hdfs文件操作大全
import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import java.net.URISyntaxException;import java.util....原创 2018-10-03 17:00:34 · 169 阅读 · 0 评论 -
一、mysql中的编码
mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%'; 缺省是latin1编码,会导致中文乱码。修改库的编码:mysql> alter database db_name character set utf8;修改表的编码:mysql> ...原创 2018-10-15 13:27:20 · 114 阅读 · 0 评论 -
sqoop各类命令示范
/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--sp...原创 2018-10-15 13:29:09 · 76 阅读 · 0 评论 -
spark自定义分区
package cn.edu360.day3import java.net.URLimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partitioner, SparkConf, SparkContext}import scala.collection.mutable/** * Created by zx on ...原创 2018-10-22 13:37:34 · 172 阅读 · 0 评论 -
spark中广播变量的使用
import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * ...原创 2018-10-22 13:32:25 · 1373 阅读 · 0 评论 -
aggregate,aggregateByKey
翻译过来就是:aggregate先对每个分区的元素做聚集,然后对所有分区的结果做聚集,聚集过程中,使用的是给定的聚集函数以及初始值”zero value”。这个函数能返回一个与原始RDD不同的类型U,因此,需要一个合并RDD类型T到结果类型U的函数,还需要一个合并类型U的函数。这两个函数都可以修改和返回他们的第一个参数,而不是重新新建一个U类型的参数以避免重新分配内存。 参数zeroValue:...转载 2018-10-22 11:06:41 · 555 阅读 · 0 评论 -
hbase產檢刪除修改表
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop...原创 2018-10-10 19:49:59 · 92 阅读 · 0 评论 -
hive的表生成函数
表生成函数:可以理解为一个函数可以生成一个表行转列函数:explode(字段名--hive中集合类型中的array,map)----炸开字段内容 distinct去重select distinct sub from (select explode(subjects) as sub from t_stu_subject) temp;表生成函数:lateral view...转载 2018-10-09 18:06:42 · 816 阅读 · 0 评论 -
hive查看表在hdfs上的位置
show create table tablename;原创 2018-10-09 10:44:20 · 2287 阅读 · 0 评论