机器学习
文章平均质量分 62
范涛
1:硕士毕业于中国科学技术大学;
2:曾就职深圳腾讯,现在就职百度
3:sina微博http://www.weibo.com/1680645085/
4:关注机器学习,数据挖掘,推荐系统和金融风险模型
展开
-
Adaboost算法阅读笔记
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用翻译 2012-05-17 13:49:16 · 1094 阅读 · 0 评论 -
海量数据相似查找系列2 -- Annoy算法
上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找,这种主要想说下另外一种情况,稠密向量如何进行快速相似查找呢?还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示,以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式,那如何从海量文本中快速查找出相似的Top N 文本呢?所以这里重点想说下Annoy(Approximate Nearest Neighbors Oh Yeah)这个快速算法,这个在实际应用中发现无论计算速度和准确原创 2017-04-19 21:27:02 · 23251 阅读 · 8 评论 -
海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总
这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢? 同样海量文本场景,文本集合可以看成doc-word 稀疏矩阵,如何求解每个文档的Top N相似文档?原创 2017-04-19 21:11:08 · 7762 阅读 · 0 评论 -
《Credit Risk Scorecard》第四章:Data Review and Project Parameters
一: data avaliablity and quality数据获取,数量和质量,可靠和干净的数据是需要的。数据数量需要满足多样性,统计显著和随机。具体数量大小,目前不是关键,依赖坏样本定义。对于申请评分卡(application scorecard),俗称A卡,需要包含拒绝的样本。通过拒绝推断(reject inference)技术去推断拒绝样本中好样本和坏样本。数据源原创 2017-03-31 16:11:45 · 3100 阅读 · 0 评论 -
《Credit Risk Scorecard》第五章: Development Database Creation
第五章:Scorecard Development Process, Stage 3: Development Database CreationSelection of Characteristics 特征选择需要考虑:(1)有预测能力; (2)可靠并且鲁棒性; (3)易于收集; (4)可解释性; SamplingDevelopment/Valid原创 2017-03-31 16:36:34 · 1632 阅读 · 3 评论 -
Kaggle : Display Advertising Challenge( ctr 预估 )
CriteoLabs kaggle 展示广告ctr预估比赛原创 2015-01-15 20:26:43 · 38147 阅读 · 18 评论 -
Loan default predictor(贷款违约预测)
Loan default predictor (贷款违约预测)--- dylan at 2014-3-16 一:背景Kaggle发布了一个涉及贷款违约预测的比赛,时间周期2个月(2014/01/17 -- 2014/03/14)。 其实,之前kaggle很久之前有过关于贷款相关信用预测的比赛。但是,这次和上次的情况很不同,挑战也更大。传统的金融相关的算法,其实是个典型二分类问原创 2014-06-25 21:36:27 · 8292 阅读 · 1 评论 -
kaggle : StumbleUpon Evergreen Classification Challenge
StumbleUpon Evergreen Classification Challenge------2013/08/16 -- 2013/10/31一 背景Build a classifier to categorize webpages as evergreen or non-evergreen Stumbleupon是美国的UGC网站,用户分享内容,网站通过用户行为数据原创 2014-06-22 15:19:31 · 3420 阅读 · 1 评论 -
FaceBook: Text Tag Recommendation
Text Tag Recommendation 一: 背景Kaggle上 facebook招聘比赛III。任务要求是给定文本中抽取关键词,这里称作tag吧。训练集是Stack Exchange sites上面的大量问答文本,每个post上面有网页的title ,body, 用户打的tags。原创 2014-06-22 15:03:11 · 2110 阅读 · 3 评论 -
Facebook:FastText 理解和在query意图识别的应用
Facebook 在2016年第一次对外公开FastText算法时候,应该是引起很大一番讨论,因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒,因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务,语料也是几百万。最开始拿的是Navie Bayies做baseline,Navie Bayies这种生成模型在大语料下不仅训练耗时,关键让人失望的是,预测速度变得也不那么快。基于当时的现状,我觉得我可以接受些许准确率损原创 2017-04-06 22:55:16 · 8239 阅读 · 2 评论 -
《Document Classification by Inversion of Distributed Language Representations》分享
前面分享了word2vector,这里想再提下这篇文章,这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想,怎么把词向量用在分类模型中? 一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量,再利用lr,gbdt等分类模型就可以了。但是这里面还有些问题:(1)word2vector忽略了文档词序; (2)如果分类样本比较少,直原创 2017-04-07 22:15:46 · 1099 阅读 · 0 评论 -
深度学习之Autoencoder
告诉大家什么是Autoencoder? 他的形式有哪几种?对于Autoencoder,相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多,反向传播算法(BP)在模型参数学习时候十分容易陷入局部最小和梯度消散,使得模型训练难度增大。Autoencoder正式因为这样的原因而被引入到深度学习中,通过先预训练的方式来缓解BP的一系列问题。原创 2017-04-22 13:17:08 · 2616 阅读 · 0 评论 -
深度学习之图像目标检测(Object Detection)
这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。原创 2017-04-22 13:58:42 · 12231 阅读 · 1 评论 -
深度学习之《社交网络问答系统-问题重复检测任务》实现
quora duplicate questions:Semantic Question Matching with Deep Learning 本文参考了quora duplicate questions 技术文档:https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learninghttp:原创 2017-04-05 19:50:40 · 4086 阅读 · 2 评论 -
Google Smart Reply笔记: Automated Response Suggestion for Email
Automated Response Suggestion for Email原创 2017-09-25 20:40:39 · 3518 阅读 · 2 评论 -
word2vector & paragraph2vector 技术分享
前言 在FastText 那章节,提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候,当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会,我调研的时候,这块技术在国内已经传播很广泛了,各种技术应用和分享都很多,这对我来说是一件非常利好的事情(站在巨人的肩膀上,哈哈)原创 2017-04-07 21:38:18 · 4194 阅读 · 0 评论 -
《Credit Risk Scorecard》 第六章: Scorecard Development
第六章:Scorecard Development Process, Stage 4: Scorecard Development开发流程: 对于申请评分卡(A 卡)来说,下面是整个开发流程。对于行为评分卡(B卡)来说,除了没有拒绝推断外,基本是一样的。Explore Data : 数据收集和处理相关的。之前章节已经提到过Missin原创 2017-03-31 17:07:15 · 5927 阅读 · 3 评论 -
《Credit Risk Scorecard》第八章: Scorecard Implementation
第八章: Scorecard Development Process, Stage 6: Scorecard Implementation这章主要涉及开发后期的分析和处理,主要涉及三个方面:(1) 理解评分卡实现的一些分析(比如稳定性分析)和和商业考虑; (2)理解评分卡和管理报告如何应用?(3) 基于评分卡模型策略制定。Preimplementation Va原创 2017-03-31 17:11:17 · 2085 阅读 · 0 评论 -
突发事件检测: kleinberg 状态机模型
背景 现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。 那针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,我们能观察到事件是何时发生的,何时突然爆发,又何时衰退的,比如“天津爆炸案”。在TDT(topic原创 2017-04-08 17:42:48 · 9490 阅读 · 6 评论 -
NMF在文档聚类中的应用
上一篇详细说明了NMF算法。这里,来学习下NMF在文档聚类中的应用。(1)给定一个文档语料库,首先构造一个词-文档矩阵V,其中V的i列代表文档di的加权词频向量。(2)使用NMF方法分解矩阵V,得到分解矩阵W,H(3)归一化W,H。(4)使用矩阵H来决定每个文档的归类。那个文档di的类标为:x,当:当然,如果想对单词进行聚类,我们可以原创 2012-05-17 13:41:51 · 2032 阅读 · 0 评论 -
NMF学习
NMF:非负矩阵因式分解。 NMF一直被认为是对多维数据分解的一个很有效的方法,包括在聚类和推荐系统中应用等。NMF矩阵算法介绍:给定一个非负矩阵V,我们可以找到2个非负分解因子矩阵W,H.其中,W称为权重矩阵,H称为特征矩阵。公式如下:当n维数据向量集放置在n*m的矩阵V中,其中m是数据集的大小。V分解的的权重矩阵W:n*r;V分解的特征矩阵H: r*m; 通常r翻译 2012-05-17 13:36:18 · 1425 阅读 · 0 评论 -
二分类问题特征选择的常用两个方法
二分类问题特征选择的常用两个方法 2014-6-25 (1)互信息。值越大,相关性越强 w是特征,t是目标。反应的是特征出现和不出现对目标值的影响。 (2) 卡方检验 其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =0,原创 2014-06-25 22:04:13 · 8975 阅读 · 0 评论 -
LDA gibbs
今天看了几个不错的博客和文档说的是lda topic model。其实最早接触这个是我在百分点实习的那会,那会原创 2014-07-12 22:55:29 · 1349 阅读 · 0 评论 -
从今天开始,把之前做的项目整理发到博客上
从今天开始,把之前做的项目整理发到博客上原创 2014-06-22 15:26:01 · 1239 阅读 · 0 评论 -
模型集成方法: Stacked generation
Stacked generation分为两个阶段 1. Level-0 generalizersLevel-0 generalizers阶段生成Level-1 generalizers阶段的输入数据。我们有K个简单的分类模型,然后如何ensemble这些模型的结果,等价于这些模型的权重是多少? 一种就是根据把训练集分割一定比率来训练这K个简单模型,用这个K的模型预测剩下部分的训练集原创 2014-06-22 23:24:03 · 3594 阅读 · 0 评论 -
不平衡学习方法理论和实战总结
不平衡学习方法一: 采样方法1. 随机重采样(random oversampling): 样本不平衡时候,对小类样本就行随机重采样,以达到平衡。这种方法只是对小类样本进行简单的拷贝,缺点是容易over-fit,比如在决策树分类的时候,很有可能一个终端叶子节点的样本都是一个样本的拷贝而已,扩展性不足,这可能会提高模型训练的精度,但是对未知测试样本的预测可能是很差的。 2.原创 2014-06-29 13:28:05 · 4686 阅读 · 0 评论 -
OWL-QN算法: 求解L1正则优化
在机器学习模型中,OWL-QN求解原创 2014-09-16 19:36:21 · 6442 阅读 · 1 评论 -
连续特征离散化和归一化
连续特征进行离散化处理。原创 2014-06-25 22:12:33 · 85517 阅读 · 7 评论 -
LIME:模型预测结果是否值得信任?
LIME: 模型是否值得信任? 我们在建立模型的时候,经常会思考我们的模型是不是够稳定,会不会出现样本偏差效应, p>>N时候会不会过拟合? 我们检查模型稳定,我们进行一些cross-validation来看看各项评估指标方差大不大。 可是如果样本一开始因为采样偏差导致样本有偏,导致模型和实际情况有差异,这个就不太好评估了。同样,p>>N也会有类似的问题,尤其在文本挖掘领域。一般情况,如果特征不是很多的话,尤其像logistic regression这样的model,我们会把模型权重给打印出来看看,看看训原创 2016-04-10 23:21:37 · 11719 阅读 · 2 评论 -
总结下这几年在文本挖掘领域的一些技术积累
今年春节过后,一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。争取能按照一些线条来梳理吧,能形成一个相对完成行业解决方案那是最好。后面的总结可能但不局限于以下领域:文本意图的识别,大规模事件聚合,突发检测,文本主题挖掘等等。会对现实的工业界问题进行分解和合理的抽象,然后针对这些抽象进行讨论。这里面因为一些因素,更多是一种探讨,会涉及到各种常规的方法,原创 2017-04-05 19:41:49 · 1980 阅读 · 0 评论 -
《Credit Risk Scorecards》读书笔记
因为有些相关工作原因,之前把《Credit Risk Scorecards》这本英文原著好好看下了,也做了些笔记。这本书基本整个信用风险评分卡模型构建流程都说了下,相当详细。十分值得阅读和参考。在读这本书的时候,我顺便也搜集了一些这个领域相关其他资料,补充到笔记中。近期,准备把其中有价值的笔记放在博客上,算作个备忘录吧,也方便讨论和交流。下面贴个这本书封面原创 2017-03-31 16:22:50 · 3321 阅读 · 0 评论 -
LDA工程化之快速采样算法
LDA 是一种topic model,相信对大多数人工业界研发人员来说,LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的,但是LDA的最终计算公式却很简单,物理意义也很好理解。在互联网行业,主题模型经常用于query语义分析,广告query-bid触发匹配等。我们知道主流搜索公司,querylog日志数量是惊人的。如何快速进行再海量文本学习主题模型,至关重要,也直接影响到主题模型是否可以在工业界应用。这里重点介绍下目前业界用的比较多的几种快速采样算法,包括Sparse LDA,Alias L原创 2017-04-14 23:44:55 · 4198 阅读 · 0 评论 -
EM-Tree + Paragraph2vector 实现大规模文档聚类
主要分享下《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》这篇文章。15年末的时候,组内同事分享过这个算法,当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行聚类,速度快并scaleable,支持单机并行和分布式。当时我正好在做事件聚类相关的项目,十分需要一原创 2017-04-08 15:26:01 · 2458 阅读 · 0 评论