机器学习
kobejayandy
十多年互联网产品研发经验,历经华为、腾讯、字节跳动等公司,主要从事后端技术研发及技术管理工作(andyjaykobe)
展开
-
人工智能反欺诈三部曲——设备指纹
编者按: 上次我们着重介绍了反欺诈的一项核心技术:特征工程。 在反欺诈的技术金字塔中,特征工程起着承上启下的作用。而居于特征工程的下一层的是基座层:数据。在机器学习里,大家有一个共识,高质量、相关的数据决定模型预测能力的上限,模型只是去逼近这个上限。数据就像原油,好的特征就像汽油,而模型就是引擎,三者缺一不可。...转载 2018-05-19 17:42:19 · 11820 阅读 · 0 评论 -
知识图谱在大数据反欺诈领域的应用与实践
1、为什么要用大数据来反欺诈?近些年来互联网金融蓬勃发展,特别是P2P的兴起,颠覆了传统的银行贷款模式,给大众带来快速便捷的金融服务;在P2P行业中,借款端的风险是P2P公司面临的主要风险,而借款端的风控水平可以说决定了一家P2P公司的核心竞争力。借款端风险的一个主要来源是欺诈风险,传统的反欺诈手段主要依赖于信息的人工审核,而身份证、手机号码、银行流水等材料的伪造成本非常低,各类信贷服务机...转载 2019-01-27 21:28:29 · 4643 阅读 · 0 评论 -
机器学习三要素:模型、策略与算法
机器学习三要素:模型、策略与算法提到机器学习,这无疑是数据分析师最常提到的一个词儿了,机器学习也叫统计学习,即Statistics Learning。一些商学院常常讲的Business Intelligence或者Business Analytic基本上也就是这回事儿。机器学习在干嘛?就是利用已有数据,找到一些合适的数学模型去描述它,然后做一些预测分析,从而优化企业的流程或者提高决策效率...转载 2019-03-25 20:34:31 · 1915 阅读 · 0 评论 -
机器学习算法优缺点对比及选择
本文的目的,是务实、简洁地盘点一番当前机器学习算法。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开...转载 2019-04-29 17:10:29 · 1770 阅读 · 0 评论 -
知识图谱技术概览
本体、知识库、知识图谱、知识图谱识别之间的关系?本体:领域术语集合。知识库:知识集合。知识图谱:图状具有关联性的知识集合。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一...转载 2019-05-23 15:37:56 · 1397 阅读 · 0 评论 -
细说:特征工程 - Feature Engineering
坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能。遗憾的是,在很...转载 2019-07-08 20:02:10 · 5516 阅读 · 0 评论 -
一文读懂特征工程
背景在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),而且机器学习的书中基本上是已经处理好的数据或者作者自己构造的虚拟的数据。所以在机器学习的实践中,可能会选择使用这些算法,但是常常不知道怎么提取特征来建模。因此,结合网上的资料和项目中的经验试着来总结一下。特征是什么特征是对于分析和解决问题有用、有意义的属性。例如:在表格数据中,表格中的一行是一个...转载 2019-07-08 20:32:21 · 2543 阅读 · 1 评论 -
一文看懂互联网反欺诈体系建设
反欺诈作为一个职能,在互联网、金融、传统零售等各行各业广泛的存在。反欺诈是一个跨安全、风控、数据、研发、内控等多学科的一个新兴领域。本文结合近年来互联网领域内的反欺诈现状,针对互联网反欺诈体系建设过程中的经验和教训进行了简单的总结和罗列。❶互联网欺诈形态常见的互联网欺诈形态✦ 盗刷:通过互联网交易平台,将他人银行账户中的资金进行转移;✦ 薅羊...转载 2019-07-10 19:18:32 · 5007 阅读 · 0 评论 -
知识图谱已成 AI 下一风口,但你知道它进展到哪了吗?
知识图谱最初是由谷歌提出用来优化搜索引擎的技术,在不断发展中外延也一度扩大。盘点目前知识图谱的发展,其已经助力了很多热门的人工智能场景的应用,例如语音助手、聊天机器人、智能问答等。当前的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等),知识图谱就是认知智能领域中主要的技术之一。从使用的范围来讲,知识图谱分为通用知识图谱和领...转载 2019-01-06 22:54:15 · 1557 阅读 · 0 评论 -
人工智能反欺诈三部曲——特征工程
近年来,随着移动互联网的兴起,各种传统的业务逐渐转至线上,互联网金融,电子商务迅速发展,商家针对营销及交易环节的推广活动经常以返利的形式进行。由于有利可图,此类线上推广迅速滋生了针对返利的系统性的优惠套利欺诈行为,俗称薅羊毛。由于移动设备的天然隐蔽性和欺诈行为的多变性,传统的防范手段,比如规则系统等就显得有些笨拙和捉襟见肘了,使得薅羊毛看起来仿佛防不胜防。但是正所谓魔高一尺,道高一丈。在实践中,我...转载 2018-05-19 17:21:35 · 4518 阅读 · 0 评论 -
【干货】机器学习和深度学习概念入门
目 录1 人工智能、机器学习、深度学习三者关系2 什么是人工智能3 什么是机器学习4 机器学习之监督学习5 机器学习之非监督学习6 机器学习之半监督学习7 机器学习之强化学习8 什么是深度学习9 总结 1人工智能、机器学习、深度学习三者关系对于很多初入学习人工智能的学习者来说,对人工智能、机器学习、深度学习的概念和区别还不...转载 2018-12-31 23:28:33 · 966 阅读 · 0 评论 -
机器学习路线图
1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。 套用一下大神们对机器学习的定义,机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,...转载 2018-05-30 00:12:59 · 630 阅读 · 0 评论 -
从机器学习谈起
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直...转载 2018-05-31 23:50:00 · 377 阅读 · 0 评论 -
常见机器学习模型总结
一、机器学习模型按照可使用的数据类型分为监督学习和无监督学习两大类。 1-监督学习主要包括用于分类和用于回归的模型: 1)分类:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT等) 2)回归:线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型(ExtraTrees/RF/GD...转载 2018-11-30 23:58:24 · 22936 阅读 · 1 评论 -
图解机器学习
每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互图形来看看机器学习中的一...转载 2018-12-30 23:55:44 · 259 阅读 · 0 评论 -
轻松看懂机器学习十大常用算法
通过本篇文章可以对机器学习ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。算法如下:决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法 神经网络 马尔可夫1. 决策...转载 2018-12-31 22:26:26 · 653 阅读 · 0 评论 -
图解数据分析师最常用的10个机器学习算法
在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。当然,你尝试的算法必须和你的问题相切合,其中...转载 2018-12-31 22:32:52 · 379 阅读 · 0 评论 -
这可能是最简单易懂的机器学习入门
本文用浅显易懂的语言精准概括了机器学习的相关知识,内容全面,总结到位,剖析了机器学习的what,who,when, where, how,以及why等相关问题。从机器学习的概念,到机器学习的发展史,再到机器学习的各类算法,最后到机器学习的最新应用,十分详尽。适合小白快速了解机器学习。 Machine Learning: A Primera quick introduction...转载 2018-12-31 22:35:44 · 797 阅读 · 0 评论 -
智能反欺诈算法概览及典型应用案例
从上个世纪90年代开始,由于反欺诈领域大数据量和高时效性需求,机器学习技术得到逐步应用:Kokkinaki(1997)提出一种基于决策树逻辑的模型,其中子节点代表不同的变量,分叉路经代表满足不同的条件;Bentley(2000)运用基因算法来搭建一套逻辑规则,可以根据最大发生概率将交易行为划分为可疑和非可疑;Bolton和Hand(2002)利用对等组分析和断点分析,...转载 2019-06-30 23:56:13 · 3033 阅读 · 0 评论