Machine Learning
文章平均质量分 78
荒野13
nothing to say
展开
-
机器学习常见问题及解决方案——正负样本不均衡
转载自:http://blog.csdn.net/lujiandong1/article/details/52658675这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,...转载 2018-07-17 11:10:10 · 5613 阅读 · 0 评论 -
机器学习常见问题及解决方案——特征选择方法
1、特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,特征工程就是最大限度地从原始数据中提取特征以供算法和模型使用,通过归纳和总结,特征工程大体包含以下方面: 特征处理是特征工程的核心部分,scikit-learn提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维等。2、数据预处理通过特征提取,我们能得到未处理的特征,这是的特征有以下显著特点...转载 2018-07-17 15:12:43 · 5252 阅读 · 0 评论 -
k-means算法详解
k-means算法详解1、算法简介k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。 k-means算法中的k代表类簇个数,means代表类簇内数...原创 2018-07-17 16:50:04 · 5132 阅读 · 0 评论 -
机器学习——L0、L1、L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的...转载 2018-07-24 13:51:48 · 10557 阅读 · 2 评论 -
推荐系统中使用ctr预估模型的发展
一. 什么是ctr?ctr即广告点击率,在推荐系统中,通常是按照ctr来对召回的内容子集进行排序,然后再结合策略进行内容的分发。二. ctr预估模型的发展。ctr预估模型的公式:y = f(x), y的范围为[0,1],表示广告被点击的概率。1. LR 海量高纬离散特征LR(logistics regression),是ctr预估模型的最基本的模型,也是工业界最喜爱使用的方...转载 2018-08-20 21:52:54 · 12655 阅读 · 1 评论