![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
星期一早上八点
互联网金融码农
展开
-
kafka中partition和消费者对应关系
转载自:https://www.jianshu.com/p/6233d5341dfe 1个partition只能被同组的一个consumer消费,同组的consumer则起到均衡效果转载 2020-07-19 17:12:20 · 231 阅读 · 0 评论 -
spark相关知识杂记
工作中经常用到hadoop和spark的相关操作,大数据的知识点很多,想要全部掌握烂熟于心很困难,将一些比较重要或经常忘记的点记录一下 1. saprk与hadoop的关系 hadoop是一个完善的大数据生态系统,包含了底层的文件系统HDFS,计算引擎MapReduce,大数据查询引擎Hive,实时流计算storm,资源调度系统Yarn等,而spark主要是用来替换MR计算引擎的,利用内存计算替换磁盘交换来提升计算效率,因此spark可以看作是hadoop生态系统中的一员,一种基于内存的计算引擎,它提供的s原创 2020-07-05 21:04:24 · 247 阅读 · 0 评论 -
数据挖掘相关技术汇总
本人互金行业算法攻城狮一枚,由于工作中常用到数据挖掘相关技术,特开此专题记录实践与学习过程中的知识点,一起进步。 目录: 一、机器学习算法相关 1. 有监督学习 1.1 分类算法 1.2 回归算法 2. 无监督学习 2.1 聚类算法 2.2 降维算法 3. 数据预处理 3.1 数据清洗(异常值、采样) 3.2 缺失值填充 3.3. 特征编码 3.4 特征提取与降维 3.5 特征选择 二、数据库及S...原创 2019-12-01 16:30:00 · 228 阅读 · 0 评论