- 博客(6)
- 收藏
- 关注
原创 2021-04-03
spark-streaming 环境搭建参考:https://www.pianshen.com/article/1423964378/练习转换算子和行动算子
2021-04-03 02:09:38 181
原创 大数据-kafka
工作中用的最多的消息中间件是kafka,下面重新介绍下1.kafka 特性这个了解下,网上到处都是 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败) 高并发:支持数千个客户端同时读写 2. Kafka架构组件每类数据创建一个topic,把向top
2021-04-03 01:07:42 417
原创 大数据-消息中间件
1.消息中间件模式分类点对点: 使用queue作为通信载体消息生产者生产消息发送到queue中,然后消息消费者从queue中取出并且消费消息。消息被消费以后,queue中不再存储,所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。发布/订阅:使用topic作为通信载体消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。q..
2021-04-03 00:10:42 802
原创 大数据:MR原理解析(二)
MR解析详解,.1. map阶段1.1 对输入文件的每一行,解析成<key、value>。每一个键值对调用一次map函数1.1.1. 输入文件进行InpuSplit,再把InpuSplit分给对应的mapper.InputSplit包含处理的文件信息FileInputFormat类中public List<InputSplit> getSplits(JobContext job)--取给的文件的最小切片和JOB文件的最小切片long minSize =
2021-04-02 23:36:20 697
原创 大数据:MR手写WORDCOUNT(-)
往往从大数据开始,第一个就是手写MRMR是map-reduce,是hadoop的核心的组件之一,并发执行,主要来处理hdfs分布式文件系统介绍自己手写的wordcount,然后再进行原理解释1.下载hadoo安装到windows本地地址https://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz2. 解压之后进行设置环境变量新建HADOOP_HOMED:\h...
2021-04-02 22:11:53 231
原创 大数据-序篇
工作多年,回首以前,个人做的技术面宽,而深度不够。而如今失业再次面试,屡屡碰壁,痛定思痛,从基础再次着手,开始巩固定学习.java很核心,但个人一般,javaweb 每一段都能自主开发,但不核心scala,python 都可以玩,但不够精通大数据中,hive,spark-streaming,spark-sql,kafka都一般般那就大数据领域开始学吧,从mr开始,java/scala/python能满足需要,再学习再补充吧...
2021-04-02 18:28:51 98
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人