大数据
星期一早上八点
互联网金融码农
展开
-
kafka中partition和消费者对应关系
转载自:https://www.jianshu.com/p/6233d5341dfe1个partition只能被同组的一个consumer消费,同组的consumer则起到均衡效果转载 2020-07-19 17:12:20 · 265 阅读 · 0 评论 -
spark相关知识杂记
工作中经常用到hadoop和spark的相关操作,大数据的知识点很多,想要全部掌握烂熟于心很困难,将一些比较重要或经常忘记的点记录一下1. saprk与hadoop的关系hadoop是一个完善的大数据生态系统,包含了底层的文件系统HDFS,计算引擎MapReduce,大数据查询引擎Hive,实时流计算storm,资源调度系统Yarn等,而spark主要是用来替换MR计算引擎的,利用内存计算替换磁盘交换来提升计算效率,因此spark可以看作是hadoop生态系统中的一员,一种基于内存的计算引擎,它提供的s原创 2020-07-05 21:04:24 · 257 阅读 · 0 评论 -
数据挖掘相关技术汇总
本人互金行业算法攻城狮一枚,由于工作中常用到数据挖掘相关技术,特开此专题记录实践与学习过程中的知识点,一起进步。目录:一、机器学习算法相关1. 有监督学习1.1 分类算法1.2 回归算法2. 无监督学习2.1 聚类算法2.2 降维算法3. 数据预处理3.1 数据清洗(异常值、采样)3.2 缺失值填充3.3. 特征编码3.4 特征提取与降维3.5 特征选择二、数据库及S...原创 2019-12-01 16:30:00 · 234 阅读 · 0 评论