机器学习
文章平均质量分 83
weifengLD
嵌入式爱好者
展开
-
逻辑回归-为什么使用逻辑函数
从线性分类器谈起 给定一些数据集合,他们分别属于两个不同的类别。例如对于广告数据来说,是典型的二分类问题,一般将被点击的数据称为正样本,没被点击的数据称为负样本。现在我们要找到一个线性分类器,将这些数据分为两类(当然实际情况中,广告数据特别复杂,不可能用一个线性分类器区分)。用X表示样本数据,Y表示样本类别(例如1与-1,或者1与0)。我们线性分类器的目的,就是找到一个超平面(Hyper转载 2017-10-06 16:38:56 · 2040 阅读 · 0 评论 -
距离和相似度的计算(很形象)
在数据分析和数据挖掘以及搜索引擎中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。常见的比如数据分析中比如相关分析,数据挖掘中的分类聚类(K-Means等)算法,搜索引擎进行物品推荐时。相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。比如两种水果,将从颜色,大小,维生素含量等特征进行比较相似性。问题定义:有两个对...转载 2018-03-23 20:33:48 · 1344 阅读 · 0 评论 -
softmax回归
本篇博客主要是参考吴恩达教授的Ufldl教程,教程链接如下:http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92OK!开启,本次的学习之旅吧! 1、Softmax回归解决什么问题呢?通过前面的学习,我们知道线性回归解决的连续值的预测,逻辑回归解决的是离散值的预测,而且针对二分类问题。那么问题来了,如果是离散值预测...转载 2018-04-08 14:47:21 · 218 阅读 · 0 评论 -
机器学习的损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的是正则化项(r...转载 2018-04-13 14:05:46 · 228 阅读 · 0 评论 -
GBDT+LR产生新的特征
1、背景CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性模型...转载 2018-04-23 19:40:40 · 3213 阅读 · 0 评论 -
Kaggle刷比赛的利器,LR,LGBM,XGBoost,Keras
刷比赛利器,感谢分享的人。摘要最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io/en/latest//pyth...转载 2018-04-24 21:12:40 · 8435 阅读 · 1 评论 -
onehot编码的意义
处理离散型特征和连续型特征并存的情况,如何做归一化。参考博客进行了总结:https://www.quora.com/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together总结如下:1、拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如...转载 2018-04-29 12:22:12 · 3932 阅读 · 2 评论 -
sklearn OneHot编码
1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHo...原创 2018-04-29 16:22:38 · 1063 阅读 · 0 评论 -
特征离散和特征选择
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的快速迭代。(离散特征的增加和减少...转载 2018-04-29 16:30:14 · 1208 阅读 · 0 评论 -
结合sklearn说一下特征选择
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征...转载 2018-04-29 18:04:31 · 767 阅读 · 0 评论 -
逻辑回归为什么使用sigmod
篇博客是在知乎上有个乎友问的问题,我的回答转载 2018-03-23 14:18:46 · 1298 阅读 · 0 评论 -
聚类:conopy算法的原理
Canopy算法流程图: 前几天学习Canopy算法,看了上面的流程图一直不懂,后来对整个流程模拟了一遍,并画了个图,才逐渐理解了,现将流程用自己的语言叙述一遍: 我们假设每个数据用小圆点来表示。在计算机中用List集合存储。 Canopy算法首先选择两个距离阈值:T1和T2,其中T1 > T2 (1)原始状态下的数据还没有分类,所以从集合中取出一点P,将P作为第一个类,我转载 2018-01-29 14:04:57 · 1075 阅读 · 0 评论 -
逻辑回归-损失函数详解
有监督学习机器学习分为有监督学习,无监督学习,半监督学习,强化学习。对于逻辑回归来说,就是一种典型的有监督学习。 既然是有监督学习,训练集自然可以用如下方式表述: {(x1,y1),(x2,y2),⋯,(xm,ym)}对于这m个训练样本,每个样本本身有n维特征。再加上一个偏置项x0, 则每个样本包含n+1维特征: x=[x0,x1,x2,⋯,转载 2017-10-06 16:39:58 · 1685 阅读 · 0 评论 -
逻辑回归-梯度下降训练
在http://blog.csdn.net/bitcarmanlee/article/details/51165444中,我们已经对logistic回归的cost function做了完整的推导。如果是单个样本,其损失函数为: cost(hθ(x),y)=−yilog(hθ(x))−(1−yi)log(1−hθ(x))1.梯度下降的原理现在问题就转化为一个无转载 2017-10-06 16:41:05 · 387 阅读 · 0 评论 -
概率密度函数和似然估计
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记概率密度函数的定义:对于一维实随机变量X,设它的累积分布函数是 ,如果存在原创 2017-10-06 17:04:18 · 7960 阅读 · 0 评论 -
矩估计和最大似然估计
参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估转载 2017-10-06 17:09:47 · 12512 阅读 · 2 评论 -
朴素贝叶斯分类
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1方法概述学习(参数估计)实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征转载 2017-10-29 10:14:43 · 260 阅读 · 0 评论 -
朴素贝叶斯分类2
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知转载 2017-10-29 16:11:48 · 414 阅读 · 0 评论 -
对数线性模型之一(逻辑回归), 广义线性模型学习总结
经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下:1转载 2017-11-08 21:50:21 · 849 阅读 · 0 评论 -
关于核函数的一些思考
想写一下我自己对于核函数的理解,虽然并不知道核函数的发明过程,但我想以自己的理解,来重现这个过程。核函数的应用很广,在SVM上的应用只是冰山一角。即便如此,我还是假设发明人是在解决SVM问题的过程了发明的核函数。对于一个二分类问题,有一个理想的数据集,假设它是线性可分的,这时直接应用SVM算法即可进行分类。假设现在的数据集不是线性可分的,如图1所示:图1该数据集在二维空间中,每个数转载 2017-10-23 21:25:34 · 420 阅读 · 0 评论 -
PCA为什么使用协方差矩阵
PCA方法是数据降维的重要手段之一,方法比较简单,就是将样本数据求一个维度的协方差矩阵,然后求解这个协方差矩阵的特征值和对应的特征向量,将这些特征向量按照对应的特征值从大到小排列,组成新的矩阵,被称为特征向量矩阵,也可以称为投影矩阵,然后用改投影矩阵将样本数据转换。取前K维数据即可,实现对数据的降维。 假设样本数据有r维(组成一个r维向量),共有n个样本。组成r*n矩阵A,矩阵转载 2017-11-03 17:14:23 · 1925 阅读 · 1 评论 -
推荐系统老司机的十条经验
本文来源微信公众号:ResysChina,版权归原作者所有,未经作者同意,请勿转载。 原文:推荐系统老司机的十条经验 作者:陈开江@刑无刀,金融科技公司天农科技CTO,曾任新浪微博资深推荐算法工程师,考拉FM算法主管,先后负责微博反垃圾、基础数据挖掘、智能客服平台、个性化推荐等产品的后端算法研发,为考拉FM从零构建了个性化音频推荐系统。 欢迎技术投稿、约稿、给文章纠错,请发送邮件至heyc@csd...转载 2018-05-08 16:22:56 · 378 阅读 · 0 评论