- 博客(9)
- 资源 (2)
- 收藏
- 关注
转载 kafka中partition和消费者对应关系
转载自:https://www.jianshu.com/p/6233d5341dfe 1个partition只能被同组的一个consumer消费,同组的consumer则起到均衡效果
2020-07-19 17:12:20
231
原创 spark相关知识杂记
工作中经常用到hadoop和spark的相关操作,大数据的知识点很多,想要全部掌握烂熟于心很困难,将一些比较重要或经常忘记的点记录一下 1. saprk与hadoop的关系 hadoop是一个完善的大数据生态系统,包含了底层的文件系统HDFS,计算引擎MapReduce,大数据查询引擎Hive,实时流计算storm,资源调度系统Yarn等,而spark主要是用来替换MR计算引擎的,利用内存计算替换磁盘交换来提升计算效率,因此spark可以看作是hadoop生态系统中的一员,一种基于内存的计算引擎,它提供的s
2020-07-05 21:04:24
247
原创 Python读写文件参数详解 open read write
一、打开文件 open方法 python打开一个文件用open()方法,返回一个文件对象,它是可迭代的: f=open('file.txt', mode='r') mode参数表示对文件的操作方式,读和写由read、write决定: 只读模式 r 文件不存在报错 r(rt) 只读方式打开文本文件,光标位于文件开头(默认模式) rb 读取二进制格式文件,光标位于文件开头 r+ 读写文件,光标位于文件开头 rb+ 读写二进制文件,光标位于文件开头 写入模式 w 文件存在
2020-07-05 11:37:48
3575
原创 导数、偏导数与梯度
机器学习或深度学习求解中经常用到梯度的概念,利用无约束的最优化方法求解模型的参数,常用的最优化方法有梯度下降法、牛顿法、拟牛顿法、共轭梯度法等 导数 偏导数 梯度 ...
2020-02-12 15:55:35
187
原创 金融基本知识
平时零零散散看一些金融方面的公众号文章,入门级的知识汇总一下 1、常见的金融投资手段 银行存款、银行理财、基金、债券、股票、信托、资产管理计划 ...
2020-02-12 14:24:04
439
1
原创 数据结构常用五大算法总结
数据结构中常用的五大算法: 贪心算法、动态规划、分治算法、回溯法、分支限定法 贪心算法 动态规划 分治算法 回溯法 分支限定法
2020-02-12 14:18:23
1427
原创 数据挖掘相关技术汇总
本人互金行业算法攻城狮一枚,由于工作中常用到数据挖掘相关技术,特开此专题记录实践与学习过程中的知识点,一起进步。 目录: 一、机器学习算法相关 1. 有监督学习 1.1 分类算法 1.2 回归算法 2. 无监督学习 2.1 聚类算法 2.2 降维算法 3. 数据预处理 3.1 数据清洗(异常值、采样) 3.2 缺失值填充 3.3. 特征编码 3.4 特征提取与降维 3.5 特征选择 二、数据库及S...
2019-12-01 16:30:00
228
原创 spark的数据本地性
一、数据本地性 spark在任务调度的时候,会检查数据存储的位置,本着“移动数据不如移动计算”的原则,会优先将task任务部署在其将要处理的数据所在的节点上,可以最大程度地减小数据传输带来的网络开销,减少IO操作,称为spark的数据本地性。 二、本地性的分类 Process_local:Excutor进程(task线程)读取缓存在本地节点上的数据 Node_local:读取本地节点硬盘上的数据...
2019-09-15 20:55:33
613
原创 云计算与虚拟化
云计算与虚拟化的关系一、虚拟化二、云计算已经有了虚拟化,为什么还要资源池化? 一、虚拟化 虚拟化是一种软件层面的资源分配技术,一般是指将一台物理机(宿主机)虚拟化为多个逻辑服务器(虚拟机)的技术,多个虚拟机之间共享物理机的CPU、内存、存储、网络等资源,可以运行不同的操作系统等软件程序,并且应用程序可以在相互独立的空间内运行而互不影响。虚拟化解决了单台物理机“资源过剩”的问题,管理员可以自由分配每...
2019-07-28 22:18:23
696
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人