自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李博Garvin的专栏

阿里云机器学习PD

原创 20行代码实现电影评论情感分析

背景情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划,电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论,如何定义每一个文本的情绪是正面或是负面的,是一个很有挑战的事情。挑战体现在...

2018-03-09 09:33:17 8363 10

原创 用深度学习做球星颜值打分完整案例(一)

已经上传了完整的代码和数据,数据比较少,大家可以帮忙补充。项目地址(记得给个start):https://github.com/jimenbian/face_rank先来说一下项目的背景,这次做的是一个最基础的图像识别案例,通过训练一个模型来给NBA球星的颜值打分,嗯,楼主麦迪、艾弗森球迷。选择N...

2018-01-18 09:32:27 3743 1

原创 深度学习RNN实现股票预测实战(附数据、代码)

背景知识最近再看一些量化交易相关的材料,偶然在网上看到了一个关于用RNN实现股票预测的文章,出于好奇心把文章中介绍的代码在本地跑了一遍,发现可以work。于是就花了两个晚上的时间学习了下代码,顺便把核心的内容翻译成中文分享给大家。 首先讲讲对于股票预测的理解,股票是一种可以轻易用数字表现律动的交易...

2017-12-23 17:01:02 49195 33

原创 为什么要写《机器学习实践应用》这本书

预售地址: https://item.jd.com/12114501.html历经了10个月,《机器学习实践应用》这本书终于面世了。首先呢,因为我的工作比较忙,只能抽一些周末或者是下班以后的时间进行写作,另外书的发布流程是一个漫长的过程。所以当这本书出版的时候,我感到熟悉又陌生,熟悉是因为书中的...

2017-07-03 08:59:56 7399 5

原创 支付宝扫一下就能体验的深度学习模型

背景 我们最近跟支付宝合作做了一款应用,挺有意思的分享给大家。这个产品好玩的一点就是把ToB产品赋予了ToC的属性,任何没有算法背景的同学,只要做简单的标记就可以生成一个图像相关的模型,拿支付宝扫下二维码就可以体验效果。 不信拿出你的支付宝扫下这个二维码打开应用, 然后在应用中扫下下面这...

2020-05-22 17:01:36 170 0

原创 独家解析英伟达最新GPU-A100对AI行业带来的影响

最近英伟达发布了最新GPU-A100,当我们先后经历了K系列、M系列、P系列、V系列之后,这一次的A系列发布又会带来哪些影响,未来行业的走势如何,新入行的同学究竟选择哪个领域入门比较合适。今天我将从3个方向为大家一一剖析, 计算力变强了,会给行业带来什么影响 计算力变便宜了,会给行...

2020-05-16 17:42:41 206 0

原创 运筹学vs机器学习

在西方一些国家,运筹学是非常热门的一个领域,很多公司都会保留大量的运筹学专家。但是在国内,运筹学理论除了在考研中有一些声音,在企业的业务中的应用还不算多,特别是相比于算法工程师的数量,运筹学专业的从业者相对较少,后续随着工业数字化的提升,运筹学一定会成为热点 业务交叉度 运筹学研究的问...

2020-05-14 19:48:08 69 0

原创 浅析Faiss在推荐系统中的应用及原理

之前在业务中应用了许多Faiss,也看了几篇关于Faiss的论文,简单记录下Faiss的一些属性和应用。Faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库,底层是用C++实现。Faiss因为超级优越的性能,被广泛应用于推荐相关的业务当中。接下来分Faiss在推荐业务应...

2020-05-05 19:47:37 160 0

原创 如何用深度学习模型为自己做个漫画画像(含代码流程)

最近看到一个特别有意思的开源项目,能把照片自动转化成漫画效果,经过半个小时的调试,终于跑通了。正先给大家看下实际效果,我在网上的随便搜了一张帅哥的证件照片试了下。基本上会把脑袋切出来,然后放大眼睛。 原照: 漫画效果后: 使用的是开源项目:https://github.com/min...

2020-04-23 19:28:55 483 0

原创 在阿里工作四周年记

一转眼来阿里已经四年,也是我工作的第四年。四年是一个关键的节点,本科生需要学习四年才可以去研究生阶段深造,意味着如果在一个领域做四年,应该已经具备了扎实的基础,剩下的是如何升华。 在阿里这四年,整体下来,非常感谢阿里给我创造的环境,未来很长时间依然想继续在这家公司深造。网上有很多人会评判这家公司...

2020-04-05 10:15:02 1623 2

原创 华为开源深度学习框架MindSpore背后的商业野心

最近华为开源了深度学习框架MindSpore,一时成为了热点。我之前也点评了很多微软、Google、腾讯等厂商的框架,有些点评文章还被官方社区收录,今天为大家解析下MindSpore。 首先阐明下我个人的观点,华为开源深度学习框架,从技术角度没有太大新意,从生态角度已经初显华为的庞大商业野心。 ...

2020-03-30 18:30:35 770 0

原创 布隆过滤器原理及在推荐业务的应用

提到布隆过滤器总想起上大学时候学习的什么切比雪夫滤波器之类的东西(博主是学通信的),布隆过滤器是一种布尔型判断器,可以非常高效的判断一个物品是否在某个列表里。有人说判断一个item是否在一个item列表里,只要将所有item存在数据库,或者做一层缓存存在redis里,再遍历的查一次不就得了?这么做...

2020-03-23 22:07:34 261 0

原创 浅谈百度新一代query-ad 推荐引擎如何提升广告收益率

今天看了一篇论文,是某顶会的被推荐为最值得阅读的论文之一。题目是《MOBIUS: Towards the Next Generation of Query-Ad Matching in Baidu's Sponsored Search》,里面有几个观点挺新颖的,跟大家分享下。 首先qu...

2020-03-19 20:51:07 263 0

原创 关于联邦学习What、How、Who的灵魂三问
原力计划

最近沉迷于学习政治经济学无法自拔,听了很多资本论相关的课程。今天也尝试通过what how who的方式介绍下联邦学习, (感谢这个领域的专家,老同学Dr Liu给我的输入) 灵魂三问指的是: 1.联邦学习解决了什么问题 2.联邦学习怎么解决的问题 3.具备什么样条件可以实现联邦学习商业...

2020-03-14 22:35:20 454 0

原创 浅谈“知识蒸馏”技术在机器学习领域的应用

什么是知识蒸馏技术? 知识蒸馏技术首次出现是在Hinton几年前的一篇论文《Distilling the Knowledge in a Neural Network》。老大爷这么大岁数了还孜孜不倦的发明各种人工智能领域新名词,让我这种小白有很多可以去学习了解的内容,给个赞。 那什么是知识蒸馏技...

2020-03-05 21:28:44 452 0

原创 浅谈模型压缩之量化、剪枝、权重共享

之前陆陆续续看了许多模型压缩相关的文章,自己业务中也接触过一些相关的客户,今天周末没事做,把模型压缩相关的内容整理一下做个分享。可能更多地从科普的角度去介绍,因为我也不是专业做这方面技术的研究。 首先明确下模型压缩的概念,就是在尽可能不改变模型效果的情况下,减少模型的体积,使得模型在使用的时候有...

2020-03-01 13:40:47 843 0

原创 算法工程师和算法框架开发,谁会代表未来?

算法和算法框架是机器学习非常重要的两个因素,算法就是诸如LR、GBDT、DNN、DeepFM这样的实际解决某个数学问题的公示实现。算法框架指的是计算框架,计算框架可以让算法执行更高效,比如最早玩深度学习的人都用过Theano,基于Theano去开发算法很困难,后来有了PyTorch和TensorF...

2020-02-07 16:45:06 728 0

原创 写给用我的“新闻推荐项目”做毕设的同学们

故事的背景是这样滴 14年的时候,我还在读研究生,那时候机器学习还算不上是一个重要的计算机学科,如果能顺嘴说一说TF-IDF、Collaborative Filtering这种算法(虽然现在听起来很naive),在当时基本上就是技术潮男一般的存在,在五道口咖啡厅能横着“骗项目”、“骗钱”。 我...

2020-01-28 10:31:03 808 0

原创 详解云原生机器学习平台的优势

概述 最近看了很多关于云原生的文章,大体意思是机器学习服务这个行业将迎来一次巨大的变革。从13年我刚入行以来,机器学习在15年左右经历了模型深度的变革,从浅层学习逐步发展到了深度学习。到了20年这个节点,机器学习的整体服务架构会开始变革,逐渐会从Apache Yarn体系向Docker+Kube...

2020-01-22 21:41:13 548 0

原创 Hash特征编码在推荐系统的应用

本文来之不易,学习hash的起源是我在客户交流现场被问到hash冲突。其实这个是我的知识短板,但是因为我隐约记得有个murmurhash的东西,然后蒙混过去了。然后今天抓紧找各位大牛学习了hash在推荐系统中的作用,总结了这篇笔记。感觉自己还是太文盲了,另外也感谢客户老师以及公司内的大牛老师的指导...

2020-01-17 17:19:30 2766 1

原创 微软NNI-业内最亲民的AutoML工具学习笔记(1):AutoFeatureENG

01 AutoML概述 记得若干年前的某次周会上,我说“AutoML不光是调参,应该包含自动特征工程。”当时得到了大佬们的嘲讽,说我不懂技术瞎说。今天回过头来看AutoML是一个系统化的体系,包含3个要素: 自动特征工程AutoFeatureEng 自动调参AutoTuning ...

2020-01-06 19:29:33 889 1

原创 马云酒吧揭秘

一直想去马总开的酒吧逛逛,听说已经成了杭州著名景区,之前总是来也匆匆去也匆匆,这次终于要在杭州过周末了,就来看看。门面不是特别大,在接近余杭这边,其实不是特别繁华的地段。 本来常规是8点可以入场,今天因为场地一直在办脱口秀,拖延到9点才能入场,也还ok。所以就一直在店里看看马总相关的书,...

2019-12-22 23:40:06 9582 5

原创 基于外卖评论的舆情风控

业务背景 目前许多商家都有线上留言或者评论反馈平台,消费者可以在这些平台上通过留言表达自己对于消费商品的反馈。消费者的反馈包括表扬性的正向反馈,也有一些批评性质的负向反馈。商家需要掌握消费者对于产品的整体舆论取向来判断自己的产品质量是否符合消费者需求,同时了解评论内容可以方便商家分析舆论导向,指...

2019-12-13 15:06:49 681 0

原创 Graph Embedding方案之DeepWalk

​对于算法不太了解的同学,这是一个看上去很没吸引力的标题,预计点击量超不过200。最近非常迷恋一句话“万物皆可Embedding”,讲的是世间所有的事物都能通过某种方法被向量表示,一旦事物被向量表示了就可以通过乘法去做进一步逻辑处理。比如商品A被表示为向量m,商品B被表示为向量n,则m*n的结果就...

2019-11-13 17:39:44 357 0

原创 从浅入深理解流式计算框架Flink

随着互联网的不断发展,行业内对于数据的处理能力和计算的实时性要求都在不断增加,随之而来的是计算框架的升级。经过了十余年开源社区的不断演进,现在计算框架已经从第一代的雅虎开源的Hadoop体系进化到目前主流的Spark框架,这两套框架的计算主要是从强依赖硬盘存储能力的计算发展到了内存计算,大大增强了...

2019-11-10 09:44:41 481 0

原创 李小璐PGONE事件对推荐系统的考验

今天谈下突发热门话题对于推荐系统的考验。内容推荐系统,本质上是一种人物喜好与内容的信息匹配。在大部分情况下,推荐系统可以离线的根据每名用户的历史观看记录以及每个内容的属性训练模型,并且实现推荐。但是,当一个非常热门的话题爆发了,例如李小璐PGONE事件这样整个平台的内容和人们的关注点都会聚焦到一个...

2019-10-30 22:35:42 2892 6

原创 「头条推荐技术解析一」运营和业务模式详解

概述 站在产品经理的角度,我始终坚信所有成功的产品一定是业务驱动的,即使是技术驱动的产品也总有一天会走向业务驱动。今天要介绍今日头条的内容推荐技术,首先要先从业务模式来介绍。 就拿头条内容跟微信公众号的运营模式做一个比较: 1)微信公众号是典型的什么样的人下什么样的菜。做微信公众号首先要有粉...

2019-10-27 10:37:27 287 0

原创 Youtube推荐系统是如何挖掘用户内心另一面的

如何评价一个基于内容的推荐系统的好坏呢?我觉得是在于推荐系统能否逐渐挖掘用户的内心深处,让用户找到自己都觉得美妙的内心另一面。Youtube在这点做得很好,特别是当我打开了18禁开关的那一刻,本来纯洁的我也被推荐系统...... 01 概述 Youtube是本人用过最好的基于内容的推荐系统,今...

2019-10-17 17:44:43 381 0

原创 【教程】sqlflow实现用sql玩转机器学习

机器学习有很多流程,包含数据预处理、特征工程、模型训练、模型评估和预测。今天所有做机器学习服务的人,无论是云上服务还是开源软件,大家都在尝试通过某种方式将如此灵活的流程串联起来。今天给大家介绍一种方式,适用所有人都了解的SQL语言。sqlflow,一种基于sql语言的机器学习实现方案 01 概述...

2019-10-08 19:36:08 832 1

原创 云栖大会独家报道

1总体感受 其实也参加过4次杭州云栖了,总体这次给我的感受是规模上照上一次没有增加,甚至有些减小。今年没有特别酷的室外冲浪,没有巨大的专有云集装箱,没有一排排的机器人,整体风格变的更务实了。里面展示的不是跟实际场景遥不可及的黑科技,更多的是很贴近生活的,甚至就是一个微小的创新的商业模式。把今...

2019-09-25 21:36:38 288 0

原创 机器学习多目标分类模型解法

机器学习被广泛的应用于推荐、风控等场景。经典的机器学习建模数据是由特征列和单一目标列构成的,比如要做广告的CTR预测,其实模型关心的是一个广告曝光后是否会被点击,这是一个单一目标场景的建模过程。但是在实际应用场景中,往往有时候会出现“既要也要”的情况,比如推荐一个视频给客户,推荐引擎不光希望客户可...

2019-09-18 17:44:58 1083 0

原创 DeepFM算法详解-推荐算法中的皇冠

概述 DeepFM是一种推荐领域炙手可热的算法,在非常多大家熟识的互联网公司都有落地场景。对于DeepFM最佳的阐述一定是来自于它的原始的论文。 地址:https://arxiv.org/pdf/1703.04247.pd 然后再介绍下推荐算法的本源,推荐其实是一个典型的二分类场景。在推...

2019-08-14 22:28:42 965 1

原创 5分钟解析Facebook最新推荐算法

最近看了Facebook关于推荐场景下的CTR的文章-Deep Learning Recommendaton Model for Personalization and Recommendation System,来给大家分享下 一些背景知识 首先呢,推荐场景的CTR预估指的是进来一个客户,我...

2019-07-16 19:49:17 1483 0

原创 谈谈晋升-互联网民工篇

晋升的一大误区 首先我想谈谈很多人对于晋升的误解,很多人觉得晋升就是对工作做得好的同学的奖励。当然,每个人对于晋升都有自己的想法,我个人不太同意上面的观点。 跟很多互联网圈的同仁聊过,大部分公司的晋升方式都大同小异,先老板提名,然后晋升答辩。所以大家也可以想下,如果晋升是对工作努力的同学的奖励...

2019-07-09 21:03:24 336 0

原创 机器学习家谱

今天的文章大神请忽略,主要是针对对机器学习一些关键概念还比较模糊的同学,希望通过这篇文章帮大家梳理。如果把机器学习的各种方式组合看成是机器学习家谱的话,这个家谱差不多有四个分支: 按学习时效性区分 按学习是否增量区分 按模型的深度学区分 按学习方式区分 ...

2019-06-28 09:42:00 392 0

原创 写给开发向产品转型的同学的3句话

先谈谈我自己的经历哈,在华为和索尼的时候做的都是开发,后来到阿里云这边做了人工智能产品经理,然后还很扯的在做产品经理的时候写了本技术书《机器学习实践应用》。对于开发怎么转产品这个话题还是有一些想法的,其实可以总结为3句话送给大家: “转换思维模式“ ”别觉得产品经理都是傻子“ ”别轻举妄动”...

2019-06-09 22:51:44 2464 1

原创 柯南变声器的算法实现原理

1.背景 小时候特别喜欢看柯南,里面有个变声蝴蝶结,让我印象深刻。变声蝴蝶结的作用就是可以把输入的语言转化成其它人的声音。举个例子,如果我有这个语音转换功能,下次录歌的时候就可以用周杰伦的声音录制(唱功还是自己的)。 如果要实现变声功能,这里面包含哪些技术点呢,首先要提取出语音中的3种表征...

2019-06-03 19:53:16 2337 1

原创 最核心的特征工程方法-分箱算法

分箱算法简介 先来讲讲什么是分箱算法,根据字面意思就是把数据按照不同的规则分到不同的箱子里。其实分箱是特征工程的一种,可以理解为一种连续数据变为离散数据的建模方式。 举个直观的例子,比如有一组连续数据,比如为25,14,68,43,63。假设数据的分箱逻辑是大于50为0,小于50为1,那么...

2019-03-22 16:04:00 2012 0

原创 把广告投给你要几步,一文带你了解广告业务

互联网发展了好几十年,其实真正沉淀下来的变现方式非常有限,广告无疑是所有流量变现的首选。整个广告的模式其实比较复杂,成熟的广告系统里面会大量应用算法,今天大家粗浅的分享下广告行业中的一些业务特点 首先,从广告这个业务的人群角度,分为广告平台、广告消费者以及广告主。 广告消费者:互联网上的每...

2019-03-22 16:00:51 307 0

原创 机器学习去除马赛克案例(代码)

知道步兵和骑兵的区别么,步兵是没“码”的。今天就给大家介绍一种去码的方法 背景概念   废话不多说,先看下效果: 上图中的左边的图有很多干扰,右边是经过本文要介绍的方法所处理后的结果。从图片去码的原理来讲,在深度学习领域大致有两种方法: 学习法,就是通过大量代码的图片...

2019-02-13 16:04:33 5005 0

提示
确定要删除当前文章?
取消 删除