机器学习
Facico
生命是闪耀的此刻,不是过程,就像芳香不需要道路一样。
展开
-
Hidden Technical Debt in Machine Learning Systems论文小记
Hidden Technical Debt in Machine Learning Systems这篇文章主要针对在AI项目开发、团队合作中的技术债的问题,一篇很有意思的综述论文现在的趋势是开发和部署ML系统相对快速且便宜,但是要维护却困难且昂贵,可以通过技术债(oftechnical debt)的角度理解,而承担这些债务需要和里的战略理由一般技术债可以通过:重构代码(refactoring code)、改进单元测试(improvingunit tests)、删掉没用的代码(deletingde原创 2020-11-06 15:39:44 · 882 阅读 · 0 评论 -
sklearn的preprocessing
preprocessing缺失值的处理简单的preprocessing直接用pandas,类似dataO['Sex'] = dataO['Sex'].apply(lambda s: 1 if s == 'male' else 0)dataO["Age"] = dataO["Age"].fillna(dataO["Age"].median())dataO["child"] = dataO["Age"].apply(lambda x: 1 if x < 15 else 0)dataO["Emb原创 2020-09-23 14:32:06 · 397 阅读 · 0 评论 -
数据划分方法小结
数据划分留出法(Hold-Out)定义与流程就是有一个数据集DDD,要分出S,T满足S⋃T=∅,S⋂T=DS,T满足S\bigcup T=\emptyset,S\bigcap T=DS,T满足S⋃T=∅,S⋂T=DS,T一个是训练集一个是测试集就是把数据分成两个互不相交的部分,并保持数据分布大致一致划分比例比例一般在23到45\frac{2}{3}到\frac{4}{5}32到54之间划分的时候保持数据分布大致一致,类似分层抽样结果处理为了保证随机性,结果在多次划分中取原创 2020-09-20 16:42:06 · 1513 阅读 · 0 评论 -
逻辑回归(Logistic回归)学习小记
逻辑回归(Logistic回归)优缺点优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高使用数据类型:数值型和标称型数据一般过程1、收集数据:任意方法2、准备数据:由于需要进行距离运算,所以数据需要是数值型。另外,结构化数据格式最佳3、分析数据:任意方法4、训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数5、测试算法:训练完成后,此步骤很快6、使用算法:首先,我们需要输入一些数据,并将其转化成对应的结构化数值;接着,基于训练好的回归系数就可原创 2020-09-20 16:39:58 · 537 阅读 · 0 评论 -
缺失值的处理小结
缺失值的处理缺失值:信息(暂时)无法获取,丢失,冲突矛盾而不可用,获取代价大1、删除删除有缺失值的特征删除有缺失值数据删除的时候可以设定一个阈值x如果这一个数据缺失值>x则丢弃如果这一个特征有缺失数据数>x则丢弃2、数据补齐1、人工补齐好,但费钱2、特殊值填充用一个特征的所有的空都用特殊值unknown来填充,形成另一种概念,但是很可能会导致严重的数据偏离3、均值(众数)填充连续型用均值,离散型用众数4、热卡填充(就近补齐)相当于k邻近算的k等于1。就是原创 2020-09-18 14:48:17 · 1441 阅读 · 0 评论 -
支持向量机(SVM)学习小记
支持向量机(SVM)简介是一种二分类模型,基本模型的定义是在特征空间上的间隔最大的线性分类器间隔最大有利于感知学习策略: 间隔最大化,可以形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题线性可分支持向量机通过间隔最大化或等价地求解相应的凸二次规划问题得到的分离超平面为w∗x+b∗=0w^{*}x+b^{*}=0w∗x+b∗=0以及相应的分离决策函数f(x)=sign(w∗x+b∗)f(x)=sign(w^{*}x+b^{*})f(x)=s原创 2020-09-18 14:47:59 · 239 阅读 · 0 评论 -
隐马尔科夫模型(HMM)学习小记
隐马尔科夫模型(HMM)基于时序的概率模型定义Q=[q1,q2...,qN]是所有可能的状态集合V=[v1,v2...vM]是所有目标集合I=[i1,i2...iT]表示长度为T的状态序列O=[o1,o2...oT]表示长度为T的观测序列概率转移矩阵A=[aij]n×naij=P(it+1=qj∣it=qi)(在t时刻)观测概率矩阵B=[bj(k)]N×Mbj(k)=P(ot=vk∣it=qj)初始状态概率向量π=(πi)πi=P(i1=qi)Q=[q_1,q_2...,q_N]是所有可能的状态原创 2020-09-18 14:47:36 · 284 阅读 · 0 评论 -
EM算法
EM算法思想来源概率模型中有观测变量:就是已经知道的数据 //如果只有这种数据的时候,我们可以直接进行极大似然估计(求导、梯度下降、牛顿迭代…)或者直接套用贝叶斯分析模型隐变量或潜在变量:比如你自己建立了一个概率模型,然后会引入一下未知量。在聚类学习中就会引入,这个时候我们就不能直接用上面的方法了综上所述:EM算法就是在有隐变量的情况下做极大似然估计一般流程(1) 得到数据:观测变量数据Y,隐变量数据Z,联合概率P(Y,Z∣θ)P(Y,Z|\theta)P(Y,Z∣θ),条件概率P原创 2020-09-18 14:46:55 · 164 阅读 · 0 评论 -
聚类的学习
聚类定义把数据集分成若干个互不相交的簇(一坨数据集),使簇间相似度尽量的小,簇内相似度尽量的大性能度量外部指标将聚类结果和某个参考模型进行比较与外部模型的比较假设样本在聚类中是ai,在模型中是bia=∣SS∣,SS+(i,j)∣ai=aj,bi=bj,i<ja=|SS|,SS+{(i,j)|a_i=a_j,b_i=b_j,i<j}a=∣SS∣,SS+(i,j)∣ai=aj,bi=bj,i<jb=∣SD∣,SS+(i,j)∣ai=aj,bi!=bj,i<j原创 2020-09-18 14:46:31 · 357 阅读 · 0 评论 -
LightGBM学习小记
LightGBM同样也是决策树从下图实验数据可以看出, LightGBM比XGBoost快将近10倍,内存占用率大约为XGBoost的1/6,并且准确率也有提升。XGboost的优缺点与LightGBM1、精确贪心算法每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。2、Level-wise(按层生长)迭代方式(同时分裂同一层的叶子,从而进行多线程优化,不容易过拟合)很多叶子节点的分裂原创 2020-09-23 14:33:15 · 503 阅读 · 0 评论