机器学习
a353833082
这个作者很懒,什么都没留下…
展开
-
EM算法浅谈
1.主要思想: 存在隐含变量。不能直接利用最大似然估计估计参数。 先随机生成参数,原创 2015-05-09 20:11:08 · 688 阅读 · 0 评论 -
关于特征工程
什么是特征工程,怎么做特征工程,怎么做好特征工程特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个很重要的环节。为了写这篇文章,我深入和广泛的阅读了相关材料,并且对他们进行了整合。这篇文章主要说明了以下问题:什么是特征工程?特征工程解决了什么问题?为什么特征工程对机器学习很重要?如何进行特征工程?哪些团队对这个问题研究的比较好,以及在哪里你能学到更多相关知识。如果你只阅翻译 2016-02-29 15:09:06 · 3932 阅读 · 0 评论 -
Datacastle 微额贷款人品预测大赛总结
感谢datacastle和现金巴士提供了这样好的大数据竞赛平台!主要从以下几个方面总结:(0)数据预处理: 缺失值:删除缺失值大于194的样例 根据缺失值个数分段构造离散特征 数值型变量:log变换(1)特征工程 (1)排序特征:将数值型数据排序,将其rank作为新的特征 (2)连续特征离散化:等量,或者等间距 (原创 2016-04-02 23:00:13 · 2867 阅读 · 0 评论 -
机器学习项目中重要问题
1.数据预处理:特征选择->降维:剔除对预测结果影响小的因素 升维(值离散化,特征组合)->提高特征复杂度,增强模型拟合能力(复杂模型:简单特征 简单模型:复杂特征) 样本选择->剔除离群点2.模型选择:根据特征的特点选择合适的模型(多线性特征,选择非线性模型;多非线性特征,选择线性模型;)根据计算能力选择模型(计算能力有限:选择LR等较简单的线性模型)原创 2016-02-03 16:27:21 · 622 阅读 · 0 评论 -
主成分分析算法
1.数据预处理:均值中心化,方差归一化 2.计算各变量协方差矩阵 3:计算特征值,特征向量 4:将特征值从大到小排序,选前k大的,其对应的特征向量组成线性变换矩阵。 5:将原数据以特征变换矩阵进行线性变换,得到k维数据 k值选择:方差损失小于一定阈值 理论基础:方差最大化,均方误差最小化原创 2015-06-30 12:27:27 · 711 阅读 · 0 评论 -
感知器,线性回归,logistic回归
1.感知器算法2.线性回归算法(梯度下降,正规方程组)3.logistic回归和最大熵原理原创 2015-05-27 09:54:31 · 2608 阅读 · 0 评论 -
贝叶斯文本分类器原理and技术要点
一 原理:贝叶斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)贝叶斯分类:输入 X=(X1,X2...,Xn) 输出 P(Y1|X)...P(Yk|X)中最大的一个作为分类结果。 假设:输入各分量相互独立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1原创 2015-04-26 20:48:26 · 522 阅读 · 0 评论 -
决策树分类算法小结
决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。ID3算法:信息熵: H(X)=-sigma(对每一个x)(plogp原创 2015-05-11 19:28:45 · 2719 阅读 · 0 评论 -
支持向量机概述
1.原理: 最大间隔分类器: min 1/2||w||^2 yi(wxi+b)>=1 写出拉格朗日函数:Lp 不等式约束利用KKT条件。 线性可分:直接最大化间隔 线性不可分:加入松弛变量 约束条件放宽 yi(wxi+b)>=1-ei 目标函数加入惩罚项(需要设置参数C)原创 2015-05-04 21:13:31 · 473 阅读 · 0 评论 -
Kaggle中常用融合技术
Kaggle中常用融合技术:原文链接:http://mlwave.com/kaggle-ensembling-guide/模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。 第一部分我们介绍利用提交的文件创建融合模型。第二部分我们通过堆栈泛化创建容和模型。我回答了为什么融合能够减少泛化误差。最后我列举了不同的融合方翻译 2016-02-29 20:46:03 · 6381 阅读 · 0 评论