太菜了-Andy-CSDN博客

原创 2021-04-03

spark-streaming 环境搭建参考：https://www.pianshen.com/article/1423964378/练习转换算子和行动算子

2021-04-03 02:09:38 214

工作中用的最多的消息中间件是kafka,下面重新介绍下1.kafka 特性这个了解下，网上到处都是高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒可扩展性：kafka集群支持热扩展持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）高并发：支持数千个客户端同时读写 2. Kafka架构组件每类数据创建一个topic，把向top

2021-04-03 01:07:42 499

原创大数据-消息中间件

1.消息中间件模式分类点对点: 使用queue作为通信载体消息生产者生产消息发送到queue中，然后消息消费者从queue中取出并且消费消息。消息被消费以后，queue中不再存储，所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。发布/订阅：使用topic作为通信载体消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费。q..

2021-04-03 00:10:42 885

原创大数据：MR原理解析(二)

MR解析详解,.1. map阶段1.1 对输入文件的每一行，解析成<key、value>。每一个键值对调用一次map函数1.1.1. 输入文件进行InpuSplit,再把InpuSplit分给对应的mapper.InputSplit包含处理的文件信息FileInputFormat类中public List<InputSplit> getSplits(JobContext job)--取给的文件的最小切片和JOB文件的最小切片long minSize =

2021-04-02 23:36:20 810

原创大数据：MR手写WORDCOUNT(-)

往往从大数据开始，第一个就是手写MRMR是map-reduce,是hadoop的核心的组件之一，并发执行，主要来处理hdfs分布式文件系统介绍自己手写的wordcount，然后再进行原理解释1.下载hadoo安装到windows本地地址https://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz2. 解压之后进行设置环境变量新建HADOOP_HOMED:\h...

2021-04-02 22:11:53 291

原创大数据-序篇

工作多年，回首以前，个人做的技术面宽，而深度不够。而如今失业再次面试，屡屡碰壁，痛定思痛，从基础再次着手，开始巩固定学习.java很核心，但个人一般，javaweb 每一段都能自主开发，但不核心scala,python 都可以玩，但不够精通大数据中，hive,spark-streaming,spark-sql,kafka都一般般那就大数据领域开始学吧，从mr开始，java/scala/python能满足需要，再学习再补充吧...

2021-04-02 18:28:51 128

forever4066的博客

原创 2021-04-03

原创大数据-kafka

原创大数据-消息中间件

原创大数据：MR原理解析(二)

原创大数据：MR手写WORDCOUNT(-)

原创大数据-序篇

C++ 课后答案自考

空空如也

原创 2021-04-03

原创 大数据-kafka

原创 大数据-消息中间件

原创 大数据：MR原理解析(二)

原创 大数据：MR手写WORDCOUNT(-)

原创 大数据-序篇

C++ 课后答案 自考

空空如也

原创大数据-kafka

原创大数据-消息中间件

原创大数据：MR原理解析(二)

原创大数据：MR手写WORDCOUNT(-)

原创大数据-序篇

C++ 课后答案自考