自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 2021-04-03

spark-streaming 环境搭建参考:https://www.pianshen.com/article/1423964378/练习转换算子和行动算子

2021-04-03 02:09:38 181

原创 大数据-kafka

工作中用的最多的消息中间件是kafka,下面重新介绍下1.kafka 特性这个了解下,网上到处都是 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败) 高并发:支持数千个客户端同时读写 2. Kafka架构组件每类数据创建一个topic,把向top

2021-04-03 01:07:42 417

原创 大数据-消息中间件

1.消息中间件模式分类点对点: 使用queue作为通信载体消息生产者生产消息发送到queue中,然后消息消费者从queue中取出并且消费消息。消息被消费以后,queue中不再存储,所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。发布/订阅:使用topic作为通信载体消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。q..

2021-04-03 00:10:42 802

原创 大数据:MR原理解析(二)

MR解析详解,.1. map阶段1.1 对输入文件的每一行,解析成<key、value>。每一个键值对调用一次map函数1.1.1. 输入文件进行InpuSplit,再把InpuSplit分给对应的mapper.InputSplit包含处理的文件信息FileInputFormat类中public List<InputSplit> getSplits(JobContext job)--取给的文件的最小切片和JOB文件的最小切片long minSize =

2021-04-02 23:36:20 697

原创 大数据:MR手写WORDCOUNT(-)

往往从大数据开始,第一个就是手写MRMR是map-reduce,是hadoop的核心的组件之一,并发执行,主要来处理hdfs分布式文件系统介绍自己手写的wordcount,然后再进行原理解释1.下载hadoo安装到windows本地地址https://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz2. 解压之后进行设置环境变量新建HADOOP_HOMED:\h...

2021-04-02 22:11:53 231

原创 大数据-序篇

工作多年,回首以前,个人做的技术面宽,而深度不够。而如今失业再次面试,屡屡碰壁,痛定思痛,从基础再次着手,开始巩固定学习.java很核心,但个人一般,javaweb 每一段都能自主开发,但不核心scala,python 都可以玩,但不够精通大数据中,hive,spark-streaming,spark-sql,kafka都一般般那就大数据领域开始学吧,从mr开始,java/scala/python能满足需要,再学习再补充吧...

2021-04-02 18:28:51 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除