机器学习
文章平均质量分 80
CAM-TAY
这个作者很懒,什么都没留下…
展开
-
生成模型 VS 判别模型 (含义、区别、对应经典算法)
从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi。生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。判别模型:学习得到条件概率分布P(y|x),即在特征x出现的情况下标记y出现的概率。数据要求:生成模型需要的数据量比较大,能够较好地估计概率密度;而判别模型对数据样本量的要求没有那么多。两者的优缺点如下图...原创 2018-03-29 22:44:30 · 75254 阅读 · 2 评论 -
连续特征如何离散化,为什么要离散化,常用于逻辑回归模型
转自:连续特征离散化达到更好的效果,特征选择的工程方法连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减...转载 2018-06-14 15:30:24 · 5003 阅读 · 0 评论 -
线性模型
y=wx+b优点:可解释性强;非线性模型可以通过在线性模型的基础上引入层级结构或者高维映射而得。 将特征转化为模型的输入值离散属性:如果存在序关系(高中低),可以将其转化为对应的连续值;如果不存在序关系(不太相关的值),则可以将其转化为k维向量,k为属性的取值个数。 性能度量:均方误差最小化,对应的方法称为“最小二乘法”。 如果xTx是一个满秩矩阵的话,那么w能够得...原创 2018-07-28 16:23:04 · 1960 阅读 · 1 评论 -
集成学习总结
内容基于周志华老师的《机器学习》书籍。 集成学习通常将多个“弱学习器”结合从而得到显著优越的泛化性能。如果希望学习器的个数较少,通常会选用较强一些的学习器。 Boosting: 个体学习器间存在强依赖关系,必须串行生成的序列方法Bagging & random forest:个体学习器间不存在强依赖关系,可同时生成的并行化方法。 Bagging和rando...原创 2018-07-28 21:51:23 · 313 阅读 · 0 评论 -
特征选择
本文基于周志华老师的《机器学习》中的内容做知识点总结使用特征选择的原因:解决维度灾难:只挑选重要特征;去除不相关特征,降低学习任务的难度。 1) 无关特征:与当前学习任务无关的特征 2)冗余特征:包含的信息可以从其他特征中衍生出来子集搜索:前向搜索:从特征集合中挑选一个最优特征,放入子集;然后在剩余特征中选择一个加入子集,选择最优组合来作为这一轮的子集;当选...原创 2018-07-29 17:50:45 · 635 阅读 · 0 评论 -
机器学习中缺失值处理
1)平均值、中值、分位数、众数、随机值等替代 2)用其他变量做预测模型来算出缺失变量。 3)把变量映射到高维,也即是把有n个值的特征转化为一个n维特征并进行01填充;连续值特征可以离散化后再做处理。这是在n不是很大的情况下这样处理。如果n很大,可以将nan作为一个值 4)如果只有train中有缺失值,则使用1处理;否则,如果train和test都有很多缺失值,可以将这个作为一个bool型/0...原创 2018-07-29 17:59:19 · 916 阅读 · 3 评论 -
聚类、降维与度量学习
降维的必要性 高维数据中很容易出现样本稀疏、距离计算困难等问题,即“维度灾难”,为了缓解维度灾难,常用的就是降维。因为数据样本虽然在高维空间中,但与学习任务相关的可能仅仅是一个低维分布,即高维空间的低维嵌入,所以能够进行降维。常用方法:特征值分解主成分分析PCA:对样本进行中心化后,计算协方差矩阵,对协方差矩阵进行特征值分解,取最大的k个特征值对应的特征向量形成投影矩阵。核化线性降...原创 2018-07-29 21:20:56 · 892 阅读 · 0 评论 -
梯度下降
梯度下降定义梯度方向梯度更新缺点批量梯度下降 Batch Gradient Descent功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图...原创 2018-11-28 14:02:55 · 417 阅读 · 0 评论