图模型在欺诈检测应用一点看法

背景 为什么是图模型? (1) 现实世界,实体之间本身就是存在自然关联的。 (2)欺诈者容易改变自身欺诈手法,逃避风控规则,但是他难以改变的全部关联关系,以及难以掌握全局视图,难以让他所在网络群体同步执行相同操作来躲避风控。还有一句话"天网恢恢,疏而不漏",当关联网络覆...

2017-12-07 20:12:22

阅读数 6716

评论数 1

Google Smart Reply笔记: Automated Response Suggestion for Email

Automated Response Suggestion for Email

2017-09-25 20:40:39

阅读数 1651

评论数 2

深度学习之图像目标检测(Object Detection)

这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。

2017-04-22 13:58:42

阅读数 7389

评论数 0

深度学习之Autoencoder

告诉大家什么是Autoencoder? 他的形式有哪几种? 对于Autoencoder,相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多,反向传播算法(BP)在模型参数学习时候十分容易陷入局部最小和梯度消散,使得模型训练难度增大。Autoencoder正式因为...

2017-04-22 13:17:08

阅读数 1167

评论数 0

海量数据相似查找系列2 -- Annoy算法

上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找,这种主要想说下另外一种情况,稠密向量如何进行快速相似查找呢?还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示,以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式,...

2017-04-19 21:27:02

阅读数 7509

评论数 4

海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。 试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢? 同样海量文本场景,文本集合可以看成doc...

2017-04-19 21:11:08

阅读数 2760

评论数 0

LDA工程化之快速采样算法

LDA 是一种topic model,相信对大多数人工业界研发人员来说,LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的,但是LDA的最终计算公式却很简单,物理意义也很好理解。在互联网行业,主题模型经常用于query语义分析,广告query-bid触发匹配等。我们知道主流搜索公司,...

2017-04-14 23:44:55

阅读数 2169

评论数 0

突发事件检测: kleinberg 状态机模型

背景         现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。 那针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,...

2017-04-08 17:42:48

阅读数 1925

评论数 0

EM-Tree + Paragraph2vector 实现大规模文档聚类

主要分享下《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》这篇文章。 15年末的时候,组内同事分享过这个算法,当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行...

2017-04-08 15:26:01

阅读数 1306

评论数 0

《Document Classification by Inversion of Distributed Language Representations》分享

前面分享了word2vector,这里想再提下这篇文章,这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想,怎么把词向量用在分类模型中? 一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量,再利用lr,gbdt等分类模型就可...

2017-04-07 22:15:46

阅读数 384

评论数 0

word2vector & paragraph2vector 技术分享

前言        在FastText 那章节,提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候,当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会,我调研的时候,这块技术在国内...

2017-04-07 21:38:18

阅读数 2790

评论数 0

Facebook:FastText 理解和在query意图识别的应用

Facebook 在2016年第一次对外公开FastText算法时候,应该是引起很大一番讨论,因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒,因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务,语料...

2017-04-06 22:55:16

阅读数 5295

评论数 2

深度学习之《社交网络问答系统-问题重复检测任务》实现

quora duplicate questions:Semantic Question Matching with Deep Learning  本文参考了quora duplicate questions 技术文档: https://engineering.quora.com/Semant...

2017-04-05 19:50:40

阅读数 2073

评论数 1

总结下这几年在文本挖掘领域的一些技术积累

今年春节过后,一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。 争取能按照一些线条来梳理吧,能形成一个相对完成行业解决方案那是最好。 后面的总结可能但不局限于以下领域:文本意图的识别,大规模事件聚合,突发检测,文本主题挖掘等等。 会对现实的工业界问题进行分解和合理的...

2017-04-05 19:41:49

阅读数 1008

评论数 0

《Credit Risk Scorecard》第八章: Scorecard Implementation

第八章: Scorecard Development Process, Stage 6: Scorecard Implementation 这章主要涉及开发后期的分析和处理,主要涉及三个方面: (1) 理解评分卡实现的一些分析(比如稳定性分析)和和商业考虑;  (2)理解评分卡和管理报告如何应...

2017-03-31 17:11:17

阅读数 873

评论数 0

《Credit Risk Scorecard》 第六章: Scorecard Development

第六章:Scorecard Development Process, Stage 4: Scorecard Development 开发流程: 对于申请评分卡(A 卡)来说,下面是整个开发流程。对于行为评分卡(B卡)来说,除了没有拒绝推断外,基本是一样的。 Explore...

2017-03-31 17:07:15

阅读数 3106

评论数 0

《Credit Risk Scorecard》第五章: Development Database Creation

第五章:Scorecard Development Process, Stage 3: Development Database Creation Selection of Characteristics  特征选择需要考虑:(1)有预测能力; (2)可靠并且鲁棒性; (3)易于收集; (...

2017-03-31 16:36:34

阅读数 755

评论数 3

《Credit Risk Scorecards》读书笔记

因为有些相关工作原因,之前把《Credit Risk Scorecards》这本英文原著好好看下了,也做了些笔记。这本书基本整个信用风险评分卡模型构建流程都说了下,相当详细。 十分值得阅读和参考。在读这本书的时候,我顺便也搜集了一些这个领域相关其他资料,补充到笔记中。 近期,准备把其中有价值的...

2017-03-31 16:22:50

阅读数 1423

评论数 0

《Credit Risk Scorecard》第四章:Data Review and Project Parameters

一: data avaliablity and quality 数据获取,数量和质量,可靠和干净的数据是需要的。 数据数量需要满足多样性,统计显著和随机。 具体数量大小,目前不是关键,依赖坏样本定义。 对于申请评分卡(application scorecard),俗称A卡,需要包含拒绝的样本。通...

2017-03-31 16:11:45

阅读数 1469

评论数 0

Spark Graphx 进行团伙的识别(community detection)

在金融科技领域,尤其风控领域,会有各种重要的关联网络,并且这种网络图十分庞大。 下面以设备间关联网络为例,采用Graphx做一个设备团伙挖掘demo。团伙识别的算法采用的是Graphx自带的LabelPropagation算法

2017-03-31 10:57:57

阅读数 6443

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭