机器学习
文章平均质量分 95
Charles_yy
一个挣扎在学习路上的学渣渣
展开
-
机器学习算法模型评价指标ROC AUC
【导读】在机器学习研究或项目中使用分类精度、均方误差这些方法衡量模型的性能。当然,在进行实验的时候,一种或两种衡量指标并不能说明一个模型的好坏,因此我们需要了解常用的几种机器学习算法衡量指标。 本文整理介绍了7种最常用的机器学习算法衡量指标:分类精度、对数损失、混淆矩阵、曲线下面积、F1分数、平均绝对误差、均方误差。相信阅读之后你能对这些指标有系统的理解。 1.分类精度当我们使用...原创 2018-03-04 21:12:52 · 5414 阅读 · 1 评论 -
机器学习中,有哪些特征选择的工程方法?
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。机器学习做得好不好,被数据和模型共同影响,比如说,数据本身不可分,那么SVM等分类算法再牛逼,也不能完全正确分开。数据集本身是有内在特性的,数据集本身的特征决定了机器学习的上限。所以,一个机器学习算...原创 2018-10-12 18:21:10 · 603 阅读 · 0 评论 -
计算广告CTR预估的特征处理方法
1.CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:离散特征的增加和减少都很容易,易于模型的快速迭代。(离散特征的增加和减少,模型也不需要调整,重新训练是必须的,相比贝叶斯推断方法或者树模...原创 2018-10-12 16:34:06 · 2804 阅读 · 0 评论 -
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f 可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表...转载 2018-08-30 10:44:43 · 811 阅读 · 0 评论 -
kmeans聚类算法及复杂度
kmeans是最简单的聚类算法之一,kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。算法原理随机选取k个中心点; 遍历所有数据,将每个数据划分到最近的中心点中; 计算每个聚类的平均值,并作为新的中心点; 重复2-3,直到这k个中线点不再变化(收敛了)。时间复杂度:O(I*n*k*m)空间复杂度:O(n*m)其中m为每个元素字...原创 2018-08-30 10:32:49 · 38461 阅读 · 4 评论 -
批标准化(Batch Normalization)
在学习Batch Normalization之前,我们来看一道某知名互联网公司算法题。以下关于batch normalization说法正确的是() A. normalization的均值⽅差计算是基于全部训练数据的 B. normalization的均值方差只基于当前的mini-batch C. normalization对输入层的每一维单独计算均值方差...转载 2018-09-01 16:19:29 · 18935 阅读 · 2 评论 -
深度学习最全优化方法总结比较及在tensorflow实现
梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的,因为此时只有唯一的局部最优点。而实际上深度学习模型是一个复杂的非线性结构,一般属于非凸问题,这意味着存在很多局部最优点(鞍点),采用梯度下降算法可能会陷入局部最优,这应该是最头疼的问题。这点和进化算法如遗传算法很类似,都无法保证收敛到全局最优。因此,我们注定在这个问题上成为“高级炼丹师”。可以看到,梯度下降算法中一个重要的参数是学习速率,适当...原创 2018-08-19 13:32:19 · 8806 阅读 · 0 评论 -
如何进行特征选择 实践
在做特征抽取的时候,我们是尽可能地抽取更多的Feature,但过多的 Feature 会造成 冗余(部分特征的相关度太高了,消耗计算性能),噪声(部分特征是对预测结果有负影响),容易过拟合等问题,因此我们需要进行 特征筛选。特征选择可以加快模型的训练速度,甚至还可以提升效果。接下来,我们了解下各种特征选择的方式。过滤型(Filter)评估 单个特征 和 结果值 之间的相关程度,...原创 2018-08-15 11:15:28 · 5043 阅读 · 0 评论 -
机器学习比赛—杀入Kaggle Top 1%
最近准备参加一个算法比赛,想把自己所学的知识拿来用一用,在比赛初始自己没一点思路,突然看到知乎上有一个大神写了一篇博文,非常适合我这种刚入门的小白。本文转载来自:https://zhuanlan.zhihu.com/p/27424282不知道你有没有这样的感受,在刚刚入门机器学习的时候,我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手,复现别人的结果,但总觉得过于...转载 2018-08-14 09:49:56 · 10123 阅读 · 4 评论 -
EM算法推导
EM算法也称期望最大化(Expectation-Maximum, EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等。本文就对EM算法的原理做一个总结。 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的...原创 2018-07-31 19:44:17 · 1913 阅读 · 0 评论 -
xgboost原理与推导
GBDT和xgboost在工业界被越来越多的使用,尤其是在一些数据比赛中经常能看到它的身影,虽然在使用起来不难,但是要能完整的理解还是有一点麻烦的。本文在分享xgboost之前,先一步一步梳理GB,GBDT,xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些。1.梯度增...原创 2018-08-05 16:00:39 · 6159 阅读 · 0 评论 -
lightGBM使用教程
最近在参加腾讯2018 广告大赛时,遇到到的知识点做一个分享!LightGBM(Light Gradient Boosting Machine)是一个基于梯度 boosting 框架, 使用决策树为其学习算法. 它是分布式的, 高效的。它属于Microsoft 的DMTK(http://github.com/microsoft/dmtk)项目。 速度和内存使用的优化许多提升工具对于...原创 2018-07-16 17:30:35 · 7032 阅读 · 0 评论 -
Windows环境下安装xgboost
XGBOOST a distributed gradient boosting (GBDT, GBRT or GBM) library.Requires the Microsoft Visual C++ Redistributable for Visual Studio 2017.Windows用户:pip安装可能无法在某些Windows环境中运行,并且可能会导致意外错误。Xgboost支...原创 2018-05-26 17:18:05 · 326 阅读 · 0 评论 -
支持向量机SVM与逻辑斯谛回归LR区别
逻辑回归模型逻辑回归模型是一种分类模型,由条件概率分布P(Y|X) 表示,形式为参数化的逻辑分布,这里,随机变量X取值为实数,随机变量Y取值为1或0。在学习逻辑回归时大家总是将线性回归作比较,线性回归模型的输出一般是连续的,在线性回归模型中每一个输入x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。但是逻辑回归输入可以是连续的[-∞, +∞],输出却一般是离散的,即只有有限个多...原创 2018-03-31 11:17:08 · 2801 阅读 · 0 评论 -
Windows安装fastTest和skift 出现 ModuleNotFoundError: No module named 'fastText'
skift:scickit-learn Python fastText的包装器。安装 skift 后,在训练模型时出现:No module named 'fastText' 注意:安装skift本身不会安装fasttext,因为PyPI目前尚未保留官方Python绑定。因此安装skift之前需要安装一下依赖包:numpy的 SciPy的 scikit学习 fastTe...原创 2018-10-18 20:41:27 · 5550 阅读 · 0 评论