机器学习
文章平均质量分 91
kingzone_2008
对于机器学习数据挖掘相关技术有浓厚兴趣
展开
-
各大公司广泛使用的在线学习算法FTRL详解
转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-re...转载 2018-07-19 11:34:38 · 539 阅读 · 0 评论 -
交叉熵(Cross-Entropy)与最大似然
交叉熵(Cross-Entropy)交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。1.什么是信息量?假设XX是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈p(x)=Pr(X=x),x∈X,我们定义事件X=x0X=x0的信息量为: I(x0)=−log(p(x0))I(x0)=−log(p(x0)),可以理解为...转载 2018-07-18 21:08:20 · 3778 阅读 · 1 评论 -
使用sklearn做单机特征工程
使用sklearn做单机特征工程目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法...转载 2018-07-23 10:52:32 · 206 阅读 · 0 评论 -
特征工程
转自:https://www.alibabacloud.com/help/zh/doc-detail/69558.htm#%E7%89%B9%E5%BE%81%E5%BC%82%E5%B8%B8%E5%B9%B3%E6%BB%91特征工程更新时间: 2018-05-02目录 主成分分析 特征尺度变换 特征离散 特征异常平滑 随机森林特征...转载 2018-07-23 10:15:46 · 2971 阅读 · 0 评论 -
Scikit-learn——LogisticRegression与SGDClassifier
1.sklearn.linear_model.logistic regression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradient Descent)随机梯度下降分类器的时候,就有点蒙了。梯度下降明明是一个求解算法,怎么就和分类...转载 2018-07-16 17:33:48 · 3402 阅读 · 0 评论 -
Python: sklearn库中数据预处理函数fit_transform()和transform()的区别
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下:# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标准化...转载 2018-07-10 15:31:24 · 3867 阅读 · 0 评论 -
LogisticRegression - 参数说明
LogisticRegression,一共有14个参数: 逻辑回归参数详细说明参数说明如下:penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(over...转载 2018-07-16 16:15:59 · 19533 阅读 · 0 评论 -
Kaggle滑水 - CTR预估(LR)
下面,我们结合Kaggle赛题:Avazu:Click-Through Rate Prediction,练习数据挖掘技术在CTR预估中的应用。本文内容包括赛题任务简析,以及基于LR(逻辑斯蒂回归)的初步实现。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.任务概述CTR(Click Through Rate,点击率),是“推荐系统/计算广告”等领域的重要...转载 2018-07-09 16:41:08 · 4859 阅读 · 2 评论 -
推荐系统遇上深度学习(十六)--详解推荐系统中的常用评测指标
最近阅读论文的过程中,发现推荐系统中的评价指标真的是五花八门,今天我们就来系统的总结一下,这些指标有的适用于二分类问题,有的适用于对推荐列表topk的评价。1、精确率、召回率、F1值我们首先来看一下混淆矩阵,对于二分类问题,真实的样本标签有两类,我们学习器预测的类别有两类,那么根据二者的类别组合可以划分为四组,如下表所示:上表即为混淆矩阵,其中,行表示预测的label值,列表示真实...转载 2018-07-19 16:06:50 · 13691 阅读 · 0 评论 -
python平台下实现xgboost算法及输出的解释
python平台下实现xgboost算法及输出的解释1. 问题描述 近来, 在python环境下使用xgboost算法作若干的机器学习任务, 在这个过程中也使用了其内置的函数来可视化树的结果, 但对leaf value的值一知半解; 同时, 也遇到过使用xgboost 内置的predict 对测试集进行打分预测, 发现若干样本集的输出分值是一样的. 这个问题该怎么解释呢? 通过翻阅Sta...转载 2018-07-19 21:27:48 · 3207 阅读 · 1 评论 -
NLP︱高级词向量表达(二)——FastText(简述、学习笔记)
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification(...转载 2018-08-05 11:11:28 · 2976 阅读 · 0 评论 -
学习SVM(四) 理解SVM中的支持向量(Support Vector)
学习SVM(四) 理解SVM中的支持向量(Support Vector)版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/chaipp0607/article/details/73716226学习SVM(一) SVM模型训练与分类的OpenCV实现 学习SVM(二) 如何理解支持向量机的最大分类间隔 学习SVM(三)理解SVM中的对偶问题 学习SV...转载 2018-12-08 22:59:32 · 19620 阅读 · 1 评论 -
sklearn与Keras的verbose相关源码
GridSearchCV的verbose参数 grid_search.py813行838行555行if self.verbose > 0:if isinstance(parameter_iterable, Sized):n_candidates = len(parameter_iterable)print("Fitting {0} folds for...原创 2018-10-12 23:02:32 · 1055 阅读 · 0 评论 -
不均衡学习的抽样方法
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目...转载 2018-08-23 21:57:17 · 3990 阅读 · 0 评论 -
在分类中如何处理训练集中不平衡问题
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原...转载 2018-08-23 21:50:56 · 1254 阅读 · 0 评论 -
在分类中如何处理训练集中不平衡问题
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原...转载 2018-08-23 21:50:56 · 594 阅读 · 0 评论 -
Python机器学习Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手册
Python机器学习Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手册 NumpySciPyScikit-LearnPandasKerasMatplotlibNeural Network Zoo 图片来源http://www.asimovinstitute...转载 2018-08-19 15:21:52 · 1123 阅读 · 0 评论 -
Learning to Rank 简介
去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位,L2R可以被广泛的应用在信息(文档)检索,协同过滤等领域。 ...转载 2018-08-03 13:55:52 · 1059 阅读 · 0 评论 -
玩转Fasttext
转自:http://albertxiebnu.github.io/fasttext/ Fasttext是Facebook AI Research最近推出的文本分类和词训练工具,其源码已经托管在Github上。Fasttext最大的特点是模型简单,只有一层的隐层以及输出层,因此训练速度非常快,在普通的CPU上可以实现分钟级别的训练,比深度模型的训练要快几个数量级。同时,在多个标准的测试数据集...转载 2018-08-05 11:37:09 · 10247 阅读 · 4 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个...转载 2018-07-09 10:38:10 · 341 阅读 · 0 评论 -
简单易学的机器学习算法——EM算法
一、机器学习中的参数估计问题 在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,采用了极大似然函数对其模型中的参数进行估计,简单来讲即对于一系列样本,Logistic回归问题属于监督型学习问题,样本中含有训练的特征以及标签,在Logistic回归的参数求解中,通过构造样本属于类别和类别的概率:这样便能得到Logistic回归的属于不同类别的概率函数:此时,使用极大似然估...转载 2018-06-19 19:01:02 · 471 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月。声明:本文于2012年便早已附上所有参考链接,并注明是篇“学习笔记”,且写明具体参考了pluskid等人的文章。文末2013年的PDF是为证。前言 动笔写这个支...转载 2018-05-29 15:54:10 · 318 阅读 · 0 评论 -
【博客存档】TensorFlow之深入理解AlexNet
【博客存档】TensorFlow之深入理解AlexNet想飞的石头夯实基础,埋头苦干 happy coding38 人赞了该文章前言前面看了一些Tensorflow的文档和一些比较有意思的项目,发现这里面水很深的,需要多花时间好好从头了解下,尤其是cv这块的东西,特别感兴趣,接下来一段时间会开始深入了解ImageNet比赛中中获得好成绩的那些模型: AlexNet、GoogLeNet、VGG(对就...转载 2018-05-23 18:29:10 · 1003 阅读 · 0 评论 -
KNN(三)--KD树详解及KD树最近邻算法
之前blog内曾经介绍过SIFT特征匹配算法,特征点匹配和数据库查、图像检索本质上是同一个问题,都可以归结为一个通过距离函数在高维矢量之间进行相似性检索的问题,如何快速而准确地找到查询点的近邻,不少人提出了很多高维空间索引结构和近似查询的算法。 一般说来,索引结构中相似性查询有两种基本的方式:一种是范围查询,范围查询时给定查询点和查询距离阈值,从数据集中查找所有与查询点距离小于阈值的数据另一...转载 2018-05-22 11:32:13 · 5313 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复...转载 2018-05-25 11:21:20 · 20284 阅读 · 0 评论 -
范数与距离的关系以及在机器学习中的应用
1 范数向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| 常用的向量的范数:L1范数: ||x|| 为x向量各个元素绝对值之和。L2范数: ||x||为x向量各个元素平方和的1/2原创 2013-11-10 20:00:30 · 56994 阅读 · 8 评论 -
[Kaggle] 数据建模分析与竞赛平台介绍
IntroductionKaggle是一个数据建模和数据分析竞赛的平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛,通过“众包”的形式以产生最好的模型。Kaggle可以分为Competitions竞赛、Datasets数据集以及Kernel内核三个子平台、配套的Forum论坛模块以及供各类公司或组织招聘人才的Jobs模块。Kaggle首页 Your H转载 2016-11-20 17:30:57 · 4663 阅读 · 1 评论 -
数据分析:Weka,Matlab,R,SPSS,SAS等分析软件的入门
1 功能角度weka是机器学习方面的工具(开源)。spss是数学工具(商业工具)。具体的说,weka的主要功能是模式分类,或者模式识别或者回归。包括特征的降维(PCA),特征选择,训练模型以及对测试样本进行分类测试,几乎包含了机器学习中的所有常用分类器。当然还有聚类以及结果的图形可视化功能。spss,侧重统计分析。包括基础的数学运算,联合分析,时间序列分析,多元尺度方法等,当然它也有决原创 2013-08-20 15:09:18 · 9698 阅读 · 0 评论 -
机器学习(二):线性回归、梯度下降、正规方程组
线性回归(Linear Regression)1 最小二乘法(Least Mean Squares)梯度下降(Gradient Descent)2 正规方程组(Normal Equations)3 极大似然法4 Locally weighted linear regression(LWR) ...原创 2018-10-12 23:05:38 · 474 阅读 · 0 评论 -
伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布
https://blog.csdn.net/michael_r_chang/article/details/39188321https://www.cnblogs.com/wybang/p/3206719.htmlhttps://blog.csdn.net/jteng/article/details/603346281. 伯努利分布伯努利分布(Bernoulli distribution)又名两点...转载 2018-06-05 17:40:46 · 146529 阅读 · 5 评论 -
初学机器学习:直观解读KL散度的数学概念
机器学习是当前最重要的技术发展方向之一。近日,悉尼大学博士生 Thushan Ganegedara 开始撰写一个系列博客文章,旨在为机器学习初学者介绍一些基本概念。本文是该系列的第一篇文章,介绍了 KL 散度(KL divergence)的基本数学概念和初级应用。作者已将相关代码发布在 GitHub 上。代码:https://github.com/thushv89/nlp_examples_thu...转载 2018-05-31 09:44:13 · 1730 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处...转载 2018-06-14 23:10:25 · 328 阅读 · 0 评论 -
FM和FFM原理
模型用途FM和FFM,分解机,是近几年出的新模型,主要应用于广告点击率预估(CTR),在特征稀疏的情况下,尤其表现出优秀的性能和效果,也数次在kaggle上的数据挖掘比赛中拿到较好的名次。FM原理特征编码时常用的one-hot编码,会导致特征非常稀疏(很多0值)。常用的特征组合方法是多项式模型,模型表达式如下: y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixjy(x)=w...转载 2018-06-19 12:13:58 · 1836 阅读 · 0 评论 -
点击率预估算法:FM与FFM
点击率预估算法:FFM@(计算广告)[计算广告]点击率预估算法FFM1FM1 背景11 线性模型12 二项式模型2 FM21 FM基本原理22 数据分析23参数个数24 计算时间复杂度25 梯度26 训练时间复杂度2FFM1 背景及基本原理2模型与最优化问题21 模型22 最优化问题23 自适应学习率24 FFM算法的最终形式3完整算法流程31 计算梯度32 计算累积梯度平方和33 更新隐变量34...转载 2018-06-19 12:12:45 · 870 阅读 · 0 评论 -
关于凸优化的一些简单概念
http://www.cnblogs.com/tornadomeet/p/3300132.html没有系统学过数学优化,但是机器学习中又常用到这些工具和技巧,机器学习中最常见的优化当属凸优化了,这些可以参考Ng的教学资料:http://cs229.stanford.edu/section/cs229-cvxopt.pdf,从中我们可以大致了解到一些凸优化的概念,比如凸集,凸函数,凸优化问题,线性规...转载 2018-06-19 00:02:27 · 1078 阅读 · 0 评论 -
FM算法(Factorization Machine)
因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。目前,被广泛的应用于广告预估模型中,相比LR而言,效果强了不少。一、FM背景FM(Factorization Machine)主要目标是:解决数据稀疏的情况下,特征怎样组合的问题。以一个广告分类的问题为例,根据用户画像、广告位以及一些其他的特征,来预测用户是否会点击...转载 2018-06-01 18:12:06 · 3759 阅读 · 0 评论 -
IV值
评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。 其中在变量处理的时候涉及IV值和WOE值的计算。基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。 由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的变化趋势。...转载 2018-06-15 11:08:16 · 8186 阅读 · 0 评论 -
特征处理(Feature Processing)
原文链接:http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Fe...转载 2018-06-01 11:27:33 · 1277 阅读 · 0 评论 -
CTR点击率预估干货分享
1.指标广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1.排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。2.数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使得预算花不...转载 2018-06-01 10:51:23 · 14476 阅读 · 1 评论 -
GBDT与LR融合提升广告点击率预估模型
1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合。 GDBT天然适合做特征提取,因为GBDT由回归树组成所以, 每棵回归树就是天然的有区分性的特征及组合特征,然后给LR模型训练,提高点击率预估模型(很多公司技术发展应用过,本人认为dnn才是趋势)。 例如,输入样本x,...转载 2018-06-14 23:20:10 · 1674 阅读 · 0 评论