自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 图模型在欺诈检测应用一点看法

背景 为什么是图模型? (1) 现实世界,实体之间本身就是存在自然关联的。 (2)欺诈者容易改变自身欺诈手法,逃避风控规则,但是他难以改变的全部关联关系,以及难以掌握全局视图,难以让他所在网络群体同步执行相同操作来躲避风控。还有一句话"天网恢恢,疏而不漏",当关联网络覆...

2017-12-07 20:12:22 12668 2

原创 Google Smart Reply笔记: Automated Response Suggestion for Email

Automated Response Suggestion for Email

2017-09-25 20:40:39 2810 2

原创 深度学习之图像目标检测(Object Detection)

这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。

2017-04-22 13:58:42 10547 0

原创 深度学习之Autoencoder

告诉大家什么是Autoencoder? 他的形式有哪几种? 对于Autoencoder,相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多,反向传播算法(BP)在模型参数学习时候十分容易陷入局部最小和梯度消散,使得模型训练难度增大。Autoencoder正式因为...

2017-04-22 13:17:08 2323 0

原创 海量数据相似查找系列2 -- Annoy算法

上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找,这种主要想说下另外一种情况,稠密向量如何进行快速相似查找呢?还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示,以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式,...

2017-04-19 21:27:02 15435 6

原创 海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。 试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢? 同样海量文本场景,文本集合可以看成doc...

2017-04-19 21:11:08 5417 0

原创 LDA工程化之快速采样算法

LDA 是一种topic model,相信对大多数人工业界研发人员来说,LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的,但是LDA的最终计算公式却很简单,物理意义也很好理解。在互联网行业,主题模型经常用于query语义分析,广告query-bid触发匹配等。我们知道主流搜索公司,...

2017-04-14 23:44:55 3399 0

原创 突发事件检测: kleinberg 状态机模型

背景         现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。 那针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,...

2017-04-08 17:42:48 4417 2

原创 EM-Tree + Paragraph2vector 实现大规模文档聚类

主要分享下《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》这篇文章。 15年末的时候,组内同事分享过这个算法,当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行...

2017-04-08 15:26:01 2012 0

原创 《Document Classification by Inversion of Distributed Language Representations》分享

前面分享了word2vector,这里想再提下这篇文章,这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想,怎么把词向量用在分类模型中? 一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量,再利用lr,gbdt等分类模型就可...

2017-04-07 22:15:46 947 0

原创 word2vector & paragraph2vector 技术分享

前言        在FastText 那章节,提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候,当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会,我调研的时候,这块技术在国内...

2017-04-07 21:38:18 3762 0

原创 Facebook:FastText 理解和在query意图识别的应用

Facebook 在2016年第一次对外公开FastText算法时候,应该是引起很大一番讨论,因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒,因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务,语料...

2017-04-06 22:55:16 7140 2

原创 深度学习之《社交网络问答系统-问题重复检测任务》实现

quora duplicate questions:Semantic Question Matching with Deep Learning  本文参考了quora duplicate questions 技术文档: https://engineering.quora.com/Semant...

2017-04-05 19:50:40 2823 1

原创 总结下这几年在文本挖掘领域的一些技术积累

今年春节过后,一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。 争取能按照一些线条来梳理吧,能形成一个相对完成行业解决方案那是最好。 后面的总结可能但不局限于以下领域:文本意图的识别,大规模事件聚合,突发检测,文本主题挖掘等等。 会对现实的工业界问题进行分解和合理的...

2017-04-05 19:41:49 1728 0

原创 《Credit Risk Scorecard》第八章: Scorecard Implementation

第八章: Scorecard Development Process, Stage 6: Scorecard Implementation 这章主要涉及开发后期的分析和处理,主要涉及三个方面: (1) 理解评分卡实现的一些分析(比如稳定性分析)和和商业考虑;  (2)理解评分卡和管理报告如何应...

2017-03-31 17:11:17 1661 0

原创 《Credit Risk Scorecard》 第六章: Scorecard Development

第六章:Scorecard Development Process, Stage 4: Scorecard Development 开发流程: 对于申请评分卡(A 卡)来说,下面是整个开发流程。对于行为评分卡(B卡)来说,除了没有拒绝推断外,基本是一样的。 Explore...

2017-03-31 17:07:15 4937 3

原创 《Credit Risk Scorecard》第五章: Development Database Creation

第五章:Scorecard Development Process, Stage 3: Development Database Creation Selection of Characteristics  特征选择需要考虑:(1)有预测能力; (2)可靠并且鲁棒性; (3)易于收集; (...

2017-03-31 16:36:34 1397 3

原创 《Credit Risk Scorecards》读书笔记

因为有些相关工作原因,之前把《Credit Risk Scorecards》这本英文原著好好看下了,也做了些笔记。这本书基本整个信用风险评分卡模型构建流程都说了下,相当详细。 十分值得阅读和参考。在读这本书的时候,我顺便也搜集了一些这个领域相关其他资料,补充到笔记中。 近期,准备把其中有价值的...

2017-03-31 16:22:50 2501 0

原创 《Credit Risk Scorecard》第四章:Data Review and Project Parameters

一: data avaliablity and quality 数据获取,数量和质量,可靠和干净的数据是需要的。 数据数量需要满足多样性,统计显著和随机。 具体数量大小,目前不是关键,依赖坏样本定义。 对于申请评分卡(application scorecard),俗称A卡,需要包含拒绝的样本。通...

2017-03-31 16:11:45 2489 0

原创 Spark Graphx 进行团伙的识别(community detection)

在金融科技领域,尤其风控领域,会有各种重要的关联网络,并且这种网络图十分庞大。 下面以设备间关联网络为例,采用Graphx做一个设备团伙挖掘demo。团伙识别的算法采用的是Graphx自带的LabelPropagation算法

2017-03-31 10:57:57 9181 4

原创 LIME:模型预测结果是否值得信任?

LIME: 模型是否值得信任? 我们在建立模型的时候,经常会思考我们的模型是不是够稳定,会不会出现样本偏差效应, p>>N时候会不会过拟合? 我们检查模型稳定,我们进行一些cross-validation来看看各项评估指标方差大不大。 可是如果样本一开始因为采样偏差导致样本有偏,导致...

2016-04-10 23:21:37 9381 2

原创 余额支付风控 -- 风控评分模型篇

余额支付风控                          风控评分模型篇            by dylanfan at 2015-2-11 一 概述 余额支付的风险识别模型分为两类:(1)盗号交易识别风险 和 (2)盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子...

2015-03-07 22:20:29 5817 0

原创 余额支付风控--整体篇

余额支付风控--整体篇 什么是风控?在支付行业的的风控是通过一定手段来对平台的业务风险进行控制,偏业务安全领域。风控和技术安全还是不太一样,技术安全更多关注系统漏洞,是否被攻击,是否被拖库。 所以,风控更加注重对业务的理解,数据分析,模型,以及风险打击策略的制定。

2015-03-07 22:08:18 3471 0

原创 Kaggle : Display Advertising Challenge( ctr 预估 )

CriteoLabs  kaggle 展示广告ctr预估比赛

2015-01-15 20:26:43 33627 16

原创 OWL-QN算法: 求解L1正则优化

在机器学习模型中,OWL-QN求解

2014-09-16 19:36:21 5384 1

原创 重读网络挖掘中community detection 文章--Fast unfolding of communities in large networks

community detection 社区发现算法

2014-08-29 20:25:15 3601 1

原创 LDA gibbs

今天看了几个不错的博客和文档说的是lda topic model。 其实最早接触这个是我在百分点实习的那会,那会

2014-07-12 22:55:29 1135 0

原创 不平衡学习方法理论和实战总结

不平衡学习方法 一: 采样方法 1. 随机重采样(random oversampling):   样本不平衡时候,对小类样本就行随机重采样,以达到平衡。这种方法只是对小类样本进行简单的拷贝,缺点是容易over-fit,比如在决策树分类的时候,很有可能一个终端叶子节点的样本都是一个样本的拷贝而已,扩...

2014-06-29 13:28:05 4037 0

原创 连续特征离散化和归一化

连续特征进行离散化处理。

2014-06-25 22:12:33 82599 7

原创 二分类问题特征选择的常用两个方法

二分类问题特征选择的常用两个方法                  2014-6-25   (1)互信息。值越大,相关性越强   w是特征,t是目标。反应的是特征出现和不出现对目标值的影响。     (2) 卡方检验   其中 A = N(w = 1, t = 1)、 B = ...

2014-06-25 22:04:13 5047 0

原创 Loan default predictor(贷款违约预测)

Loan default predictor  (贷款违约预测) --- dylan at  2014-3-16   一:背景 Kaggle发布了一个涉及贷款违约预测的比赛,时间周期2个月(2014/01/17 -- 2014/03/14)。 其实,之前kaggle很久之前有过关于贷款相关信用预测...

2014-06-25 21:36:27 6335 1

原创 模型集成方法: Stacked generation

Stacked generation分为两个阶段   1. Level-0 generalizers Level-0 generalizers阶段生成Level-1 generalizers阶段的输入数据。 我们有K个简单的分类模型,然后如何ensemble这些模型的结果,等价于这些模型的...

2014-06-22 23:24:03 3184 0

原创 从今天开始,把之前做的项目整理发到博客上

从今天开始,把之前做的项目整理发到博客上

2014-06-22 15:26:01 1122 0

原创 kaggle : StumbleUpon Evergreen Classification Challenge

StumbleUpon Evergreen Classification Challenge ------2013/08/16 -- 2013/10/31 一 背景 Build a classifier to categorize webpages as evergreen or non-ever...

2014-06-22 15:19:31 2701 1

原创 FaceBook: Text Tag Recommendation

Text Tag Recommendation  一: 背景 Kaggle上 facebook招聘比赛III。任务要求是给定文本中抽取关键词,这里称作tag吧。 训练集是Stack Exchange sites上面的大量问答文本,每个post上面有网页的title ,body, 用户打的tags。

2014-06-22 15:03:11 1953 3

原创 求子序列的长度

子序列的定义:对于一个序列a=a[1],a[2],......a[n],则非空序列a'=a[p1],a[p2]......a[pm]为a的一个子序列,其中1 例如:4,14,2,3和14,1,2,3都为4,13,14,1,2,3的子序列。 对于给出序列a,有些子序列可能是相同的,这里...

2013-09-24 16:59:32 776 0

原创 给定长度为n的整数数列:a0,a1,..,an-1,以及整数S。这个数列会有连续的子序列的整数总和大于S的,求这些数列中,最小的长度。

给定长度为n的整数数列:a0,a1,..,an-1,以及整数S。这个数列会有连续的子序列的整数总和大于S的,求这些数列中,最小的长度。 #include using namespace std; int min_seri_len(int *a, int n, int S){ int i...

2013-09-21 19:09:45 3980 0

原创 删除字符串中的“b”和“ac”

删除字符串中的“b”和“ac”,需要满足如下的条件:字符串只能遍历一次;不能够实用额外的空间。例如:acbac ==> "";aaac ==> aa;ababac ==> aa;bbbbd ==> d   #include using namespac...

2013-09-21 15:02:40 1219 0

原创 给定两个有序的n长度的数组,如何找出这两个数组合并后的中位数?

给定两个有序的n长度的数组,如何找出这两个数组合并后的中位数? (1) o(n)的时间复杂度。这个就像两个有序链表合并一样,设定一个变量,记录合并数的索引,一旦等于n,即停止,当前值卫中位数。 (2)log(n)时间复杂度。通过比较两个数组中位数的大小,可以把查找范围缩小一半。 #inclu...

2013-09-21 14:08:19 777 0

原创 平衡三进制的转换问题

给定一个数,如何把用三进制表示,就像5= 9-3-1? #include using namespace std; void transform_ternary3 (int num){ int m = 0; vector seri; if (!num){ cout <&l...

2013-09-21 13:58:55 887 0

提示
确定要删除当前文章?
取消 删除