![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法总结
隔壁王者新
日常总结,如有错误,欢迎留言!
展开
-
机器学习算法构建流程
数据挖掘流程:我在天池做过一些比赛,比如新人赛里面的o2o,但对于建模前的一些准备(特征工程或者说叫数据挖掘)并没有什么概念,网上也并没有找到相应的资料。刚好今天在网上的课程(京东购买预测)中找到了详细的步骤,故做记录保存分享。(一)数据清洗1.数据集完整性验证数据是否存在残缺2.数据集中是否存在缺失值缺失数据是很常见的。python中的pandas的部分函数是可以用来处理缺失...原创 2019-07-01 15:34:00 · 1797 阅读 · 0 评论 -
决策树相关知识
决策树总结1.决策树的路径及其对应的if-then规则集合具有一个重要的性质:互斥且完备。2.学习的目标是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。3.决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。4.决策树学习的算法通常是一个递归的选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类...原创 2019-07-02 08:50:03 · 240 阅读 · 0 评论 -
LDA(线性判别分析)学习总结
LDA是一种有监督的降维和分类算法,其主要思想是投影后类内方差最小,类间方差最大。二分类情况类间离散度定义为:(μ~1−μ~2)2=(wTμ1−wTμ2)2=wT(μ1−μ2)(μ1−μ2)Tw=wTSBw(\tilde \mu _1 - \tilde \mu _2 )^2 = (w^T \mu _1 - w^T \mu _2 )^2 = w^T (\mu _1 - \mu _2...原创 2019-07-02 16:24:16 · 522 阅读 · 0 评论 -
SVM(支持向量机)总结
函数间隔与几何间隔:函数间隔:给定一个训练样本(x(i),y(i))(x^{(i)} ,y^{(i)} )(x(i),y(i)), xxx是特征,yyy是结果标签,iii表示第iii个样本。则函数间隔定义为:γ^(i)=y(i)(wTx(i)+b)\hat \gamma ^{(i)} = y^{(i)} (w^T x^{(i)} + b)γ^(i)=y(i)(wTx(i)+b)函数间隔...原创 2019-07-02 19:57:56 · 235 阅读 · 0 评论 -
相关性分析方法
相关性分析是指对两个或多个具备相关性呃变量元素进行分析,从而衡量两个变量因素之间的相关密切程度。一般常用四种方法:画图判断(散点图向量或散点图矩阵)ax.scatter(data1,data2)pearson(皮尔逊)相关系数要求样本满足正态分布—两个样本之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,其值介于-1与1之间。协方差:sxy=1n−1∑k=1n(xk−x...原创 2019-08-30 16:38:43 · 8148 阅读 · 1 评论