自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据与人工智能

关注大数据与人工智能技术、行业动态,每周输出2篇以上大数据、推荐系统、算法、机器学、AI原创文章

  • 博客(380)
  • 收藏
  • 关注

原创 「从零入门推荐系统」13:推荐系统排序算法之wide & deep、YouTube深度学习排序...

作者|gongyouliu编辑 |gongyouliu我们在上一章讲解了常用的3种基础排序算法,本章我们接着讲解2种经典的深度学习排序算法,即Google的wide & deep和YouTube的深度学习排序。这2个算法是国外大厂在真实业务场景中得到验证的、有真实业务价值的方法,并且也被中国广大互联网公司应用于自己的业务中,是得到业界一致认可的算法。虽然这2个算法是在大约2016年左...

2023-01-08 16:53:55 34

原创 「从零入门推荐系统」12:推荐系统排序算法之logistics回归、FM、GBDT

作者|gongyouliu编辑 |gongyouliu我们在上一篇文章中介绍了5种最基础的、基于规则策略的排序算法,那些算法是在没有足够的用户行为数据的情况下不得已才采用的方法,一旦我们有了足够多的行为数据,那么我们就可以采用更加客观、科学的机器学习排序算法了。本章我们就来讲解3个最常用、最基础的基于机器学习的排序算法,分别是logistics回归、FM(分解机)和GBDT(Gradient...

2023-01-02 18:33:56 162

原创 梳理一下我在2022年读过的23本书

作者|gongyouliu编辑 |gongyouliu2022年我一共看了23本书,比自己之前定的目标——每年看36本书——少了不少。今天特意花大半天时间写一篇文章来整理一下今年看的书,梳理一下自己的思路,也算是留下一份记录。这份书单也希望给大家作为参考,或许其中某些书你是感兴趣的。我简单将我读的书分为3大类:文学、技术、其它。下面我也按照这个结构分3部分来说明,针对每本书我会简单说一下这本...

2023-01-01 15:18:32 435

原创 「从零入门推荐系统」11:推荐系统排序算法之规则策略方法

作者|gongyouliu编辑 |gongyouliu我们在上面一篇文章中介绍了排序算法的一些基本概念和知识点。大家应该已经非常清楚排序算法可以解决什么问题,可以用在哪些推荐场景了。上一章也对排序算法做了一个简单的说明性介绍,从本章开始我们会花3章的篇幅来介绍具体的排序算法的实现原理。本章我们先介绍最简单、最没有机器学习含量的规则策略排序方法。虽然规则策略算法没有用到复杂的机器学习模型,主要...

2022-12-31 22:15:43 205

原创 「从零入门推荐系统」10:推荐系统排序算法介绍

作者|gongyouliu编辑 |gongyouliu我们在第5章「推荐系统业务流程与架构」中讲到推荐系统一般会分为召回和排序两个阶段,召回可以看成是推荐前的初筛过程,排序是对初筛的结果进行精细打分的过程。我们在前面4章中介绍完了推荐系统召回算法相关的知识点,从本章开始,我们会花4章的篇幅来介绍排序算法。本章是关于排序的第一章,在这一章我们会对排序算法的基本概念、常用的排序算法、排序算法的应...

2022-12-25 20:28:09 177 1

原创 「从零入门推荐系统」09:召回算法之嵌入召回算法和深度学习召回算法

作者|gongyouliu编辑 |gongyouliu我们在上一篇文章中介绍了5种基础的召回算法,这5种召回算法原理简单,工程实现容易,非常实用。本章我们会讲解两类更复杂的召回算法,一类是嵌入方法召回,另一类是深度学习召回。由于本系列文章是入门文章,不会讲太多太复杂的算法,我们会拿几个最有价值的方法介绍给大家。更现代、更复杂的的召回算法,我们会在本章提一下,但是不会深入介绍,读者自己可以去了...

2022-12-24 23:16:09 242

原创 「从零入门推荐系统」08:召回算法之5类基础召回算法

作者|gongyouliu编辑 |gongyouliu我们在上一篇文章中介绍了规则策略召回算法,这类方法非常简单,只需要利用一些业务经验和基础的统计计算就可以实现了。本节我们来讲解一些基础的召回算法,这类算法要么是非常经典的方法,要么是需要利用一些机器学习知识的,相比上一章的方法要更复杂一点,不过也不难,只要懂一些基础的机器学习和数学知识就可以很好地理解算法原理。具体来说,本章我们会讲解关联...

2022-12-18 19:09:04 86

原创 「从零入门推荐系统」07:召回算法之规则策略方法

作者|gongyouliu编辑 |gongyouliu我们在上一篇文章中对推荐系统中的召回算法进行了简单梳理。从本章开始,我们会花3章的篇幅来详细介绍推荐系统召回算法的具体思路和实现细节。上一章中我们提到了可以按照算法复杂度将召回算法分为3类,接下来的3章我们按照这个分类来介绍召回算法,我们会分别讲解规则策略召回算法、基础召回算法、高阶召回算法。本章我们介绍规则策略召回算法。下面我们分5小结...

2022-12-17 20:43:43 129

原创 「从零入门推荐系统」06:推荐系统召回算法介绍

作者|gongyouliu编辑 |gongyouliu我们在前面几章中介绍了推荐系统的一些基本概念,从本章开始我们会进入推荐系统的核心章节,也就是关于推荐算法部分的介绍。我们在第五章「推荐系统业务流程与架构」中讲到推荐系统一般会分为召回和排序两个阶段,召回可以看成是推荐前的初筛过程,排序是对初筛的结果进行精细打分排序的过程。召回和排序两个阶段中使用的算法就是推荐系统的核心算法。在后面一系列文...

2022-12-11 18:52:41 123

原创 专注推荐系统13年,我收获最大的4个成长

‍‍ 作者|gongyouliu编辑 |gongyouliu我从2010年开始接触推荐系统,到现在差不多有13年了,这13年间我基本没有间断过对推荐系统的学习和实践(今年还看了两本推荐系统相关的书籍和一些论文)。回顾一下这十几年的经历,我获得了非常多的成长。在这里想跟大家分享我收获最大的4个成长,希望对大家有所参考和借鉴。1、通过推荐系统,我获得了一个非常好的职业。职场是一辈子的事情...

2022-12-10 15:34:23 264

原创 13年实践经验总结,200多页PPT的企业级推荐系统原理与实践,助力企业精细化与个性化运营...

我最早在2010年就开始学习研究推荐系统,目前在推荐系统领域已经有13年实践经验,过去5年帮很多大中小公司做过企业级推荐系统的咨询和培训,帮助他们更好地实施推荐系统。自己也有至少3次从零构建企业级推荐系统的经验,曾经构建过DAU千万级产品的推荐系统,这些经验都沉淀在我去年出的书里,参考如下:今年结合我的书和过去几年为企业进行咨询培训的经历整理了200多页的企业级推荐系统的PPT,涵盖企业级推荐系统...

2022-12-04 21:34:47 101

原创 13年实践经验总结,200多页PPT的企业级推荐系统原理与实践,助力企业精细化与个性化运营...

我最早在2010年就开始学习研究推荐系统,目前在推荐系统领域已经有13年实践经验,过去5年帮很多大中小公司做过企业级推荐系统的咨询和培训,帮助他们更好地实施推荐系统。自己也有至少3次从零构建企业级推荐系统的经验,曾经构建过DAU千万级产品的推荐系统,这些经验都沉淀在我去年出的书里,参考如下:今年结合我的书和过去几年为企业进行咨询培训的经历整理了200多页的企业级推荐系统的PPT,涵盖企业级推荐系统...

2022-12-04 21:34:47 28

原创 我的20条生活原则之01:任何事情都有两面性

作者|gongyouliu编辑 |gongyouliu之前在9月中旬,我写过一篇文章「多年的生活经历,让我深刻领悟到的20条生活原则」(点击紫色字体查看原文),在那篇文章中,我对自己过去多年领悟到的20条生活原则进行了简单的陈述和说明。当时那篇文章也受到了很多朋友的喜欢和认可。那篇文章由于篇幅所限,对每一条原则没有展开详细说明,说得不是很透彻,还不够有深度,所以我准备开启一个系列,针对每个原...

2022-11-13 19:00:04 153

原创 「推荐系统特征工程」07. 一些与特征工程相关的实际问题

作者 |gongyouliu编辑|gongyouliu我们在上一章中介绍了特征选择,讲到了选择特征的一些基本方法及在具体模型中怎么选择合适的特征。本章我们来介绍几个与特征工程相关的实际问题,这些问题在实际构建模型过程中是比较重要的,需要很好地处理,才能更好地构建出有业务价值的特征。7.1 可变维度的离散特征有些特征的维度是动态变化的,训练样本数量不同特征维度不同。典型的比如标签,一般标签可能...

2022-10-02 18:35:51 460

原创 多年的生活经历,让我深刻领悟到的20条生活原则

作者|gongyouliu编辑 |gongyouliu我们每个人从小到大听过很多很多的道理,但是很多道理只有在自己亲身经历过很多事情之后才能真正领悟,你有多痛,你的领悟就有多深刻。很多道理即使你领悟了,你也不一定能做到,也许只有你付出了足够大的代价后才能真正领悟并做到。在自己最具“弱点(这往往是你的性格或者从小的生活环境给你带来的)”的事情上,你往往要付出最“惨痛的教训”才能“领悟并规避”。...

2022-09-17 17:49:51 131

原创 「推荐系统特征工程」06. 特征选择

作者 |gongyouliu编辑|gongyouliu我们在上一章中讲到了特征构建。通过特征构建可以从已知的数据样本中获得对问题进行建模的数学化的对象(即向量)。针对具体的业务问题,我们可以采用不同的模型来(近似)描述现实世界,不同的模型对数据的要求是不一样的,当尝试或者选定了合适的模型时,我们就需要从已有的特征中选择合适的特征来训练模型(有时特征不够,还要进行构建新特征或者特征处理、增强等...

2022-09-04 15:52:07 115

原创 元宇宙01:什么是“元宇宙”

作者| 橙子审核|gongyouliu编辑|gongyouliu从今天开始,我们将进入一个全新的专题——“元宇宙”。首先我们来谈谈元宇宙的定义。1992年,尼尔斯蒂芬森的科幻小说《雪崩》出版,好评如潮。《雪崩》描述的是脱胎于现实世界的一代互联网人对两个平行世界的感知和认识。但是,不论是作者还是书评者都没有预见到,在30年之后,此书提出的元宇宙Metaverse概...

2022-08-06 21:12:10 246

原创 「认识AI:人工智能如何赋能商业」【32】目前主流的深度学习工具

作者|Harper审核|gongyouliu编辑|gongyouliu我在前面的内容中给大家介绍了深度学习相比机器学习的优势所在,也给大家梳理了目前主流的机器学习工具,本期给大家分享的内容是主流的深度学习工具。深度学习是人工智能中最有趣的领域之一,因此有许多工具可以用于创建深度学习人工神经网络,这些工具以深度学习框架的形式出现。深度学习框架是一个接口,它使得开...

2022-07-13 22:30:38 281

原创 「推荐系统特征工程」05. 特征构建

作者 |gongyouliu编辑|gongyouliu机器学习模型一般只能处理向量化的数据,因此在建模过程中,需要将收集到的原始数据进行转化,构建出机器学习模型可以利用的数据形式(即向量化的数据),这个过程就是特征构建的过程。特征构建从收集到的机器学习模型的原始数据中提取出特征,将原始数据空间映射到新的特征空间,使得在新的特征空间中,模型能够更好地学习数据中的规律。...

2022-07-12 08:30:31 350

原创 2022年上半年总结——忙碌而有点忧伤的半年

现在越来越感受到了时间的相对性。固定不变的生活方式,狭小单调的生活空间,让每一天的流逝串联成一串串的数字,就像我最近在读的小说《魔山》中对时间描写的那样,2022年的上半年不知不觉就过完了,仿佛是一场梦。去年年中说过每半年要写一篇文章来回顾一下自己的工作生活,做一些总结和感悟分享的,虽然今年太忙没时间写什么文章,但是这个年中总结不管多忙还是得写一写。回顾上半年,很多事情跟...

2022-07-11 08:30:58 2711 3

原创 「认识AI:人工智能如何赋能商业」【31】区分智能化与自动化

作者|Harper审核|gongyouliu编辑|gongyouliu在1939年的世界博览会上,最受欢迎的景点之一是一个250磅重的机器人Elektro。他一边抽烟,一边吹气球,甚至还会讲笑话,让观众眼花缭乱。许多消费者认为,他们离拥有自己的能打扫房子和洗碗的Elektro只有几年时间了。然而,尽管Elektro给人留下了深刻的印象,但他有一个严重的局限性:...

2022-07-10 10:30:04 391

原创 大数据的关键思考系列32:移动大数据的3T

作者| 橙子审核|gongyouliu编辑|gongyouliu在上一期内容中,我们讨论了“负面信息也是决策关键”,本期内容想和大家讨论的是“移动大数据的3T”。我们应该清楚地认识到,商业的基础正因移动互联网的普及而改变。移动终端带来的变革当然不限于数据分析,但这无疑是最为敏感的。你是否已经用全新的角度去思考移动终端业务做得好不好?在移动大潮之下,每家公司都要从...

2022-07-08 22:00:50 185

原创 「认识AI:人工智能如何赋能商业」【30】深度学习VS机器学习

作者|Harper审核|gongyouliu编辑|gongyouliu上期内容给大家介绍了目前主流的机器学习工具,我们知道深度学习是机器学习的一个子领域,研究的算法灵感来自于大脑的结构和功能,称为人工神经网络。我在前面也给大家详细介绍了人工神经网络的工作原理。本期内容给大家说一说深度学习相对机器学习所占的优势。机器学习系统面临的一个挑战是,它们可能是任务密集型...

2022-07-07 22:00:30 178

原创 大数据的关键思考系列31:负面信息也是决策关键

作者| 橙子审核|gongyouliu编辑|gongyouliu在上一期内容中,我们讲到了“大数据与气候”,今天我们讨论的是“负面信息也是决策关键”。大数据时代的思考方法就是要全面了解一个人的行为,不是简单的看,而是有计划地多角度观察,甚至要触类旁通的观察。大数据时代所衍生的多媒体数据越丰富,科技识别的能力越精细,场景的定位就更明确,数据从收集到使用的规范化,都...

2022-07-06 22:00:01 52

原创 大数据的关键思考系列30:大数据与气候

作者| 橙子审核|gongyouliu编辑|gongyouliu在上一期内容中,我们讨论了“数据预测”,本期内容想和大家讨论的是“大数据与气候”。如今,各国政府和科研机构正在利用大数据技术来预测气候变化并寻求解决措施。大数据技术已经成为人们从各个角度研究气候变化的重要方法。美国国家航空航天局的气候模拟中心通过数千台联网的电脑进行并行运算,分析在全球采集的各种类型...

2022-07-05 22:00:20 93

原创 「认识AI:人工智能如何赋能商业」【29】主流的机器学习工具

作者|Harper审核|gongyouliu编辑|gongyouliu上期给大家梳理了一下使用机器学习可能遇到的挑战,本期给大家介绍一下目前主流的机器学习工具,方便大家挑选使用。众所周知机器学习是人工智能中最丰富的领域之一,因为有太多的数据可用。大多数公司仍在为如何处理内部收集的数据而挣扎,更不用说从其他来源获取的数据了。缺乏数据不再是挑战。挑战在于如何从所有...

2022-07-04 22:08:38 82

原创 大数据的关键思考系列29:数据预测

作者| 橙子审核|gongyouliu编辑|gongyouliu在上次内容中,我们讲到了“大数据与时尚业”,今天我们讨论一下“数据预测”。从大量数据的收集到找出有用的规律,要预测结果需经得起时间考验,非常不容易。如果不能将预测付诸行动,或者与现实偏差太大,便,前功尽弃。随着技术进步,数据应用经历了几个重要阶段:从最早期的描述性分析(发生了什么),到诊断性分析(为...

2022-06-30 09:40:50 233

原创 「认识AI:人工智能如何赋能商业」【28】使用机器学习可能遇到的挑战

作者|Harper审核|gongyouliu编辑|gongyouliu前面两期内容给大家介绍了使用机器学习解决分类与聚类问题,考虑到机器学习的巨大潜力,我们在使用机器学习的过程中可能会遇到一些挑战。比如说,如何获得所需的数据?如何避免常见的错误?如何知道是否使用了正确的工具,这就是本期要给大家分享的内容。首先我们需要明白一点,即使是最基础的神经网络也不可能从少...

2022-06-28 22:11:01 37

原创 大数据的关键思考系列28:大数据与时尚业

作者|Harper审核|gongyouliu编辑|gongyouliu在上一期内容中,我们讲到了“大数据与娱乐业”,今天我们讨论的是“大数据与时尚业”。最近很多公司在设计、制造及销售等方面,利用超越传统的方式发挥了大数据的作用,给出了让人耳目一新的创新。时尚不是必需品,它是对自我表达和身份认同的渴望,而这两者都很难定义和量化。然而,越来越多的公司正在利用数据和...

2022-06-25 17:16:12 32

原创 大数据的关键思考系列27:大数据与娱乐业

作者|Harper审核|gongyouliu编辑|gongyouliu在上一期的内容中,我们讨论了“大数据与医疗”,本期内容和大家聊一聊“大数据与娱乐业”。如何决定一部新出品电影的放映排期,包括日期、场次等等,这就需要对这部电影的票房有非常准确的预测。以往新电影的票房都是根据过去类似电影的票房来估计的,准确度不算理想。现在通过分析新电影的预告片在各视频网站的浏...

2022-06-19 10:30:56 503

原创 「认识AI:人工智能如何赋能商业」【27】利用神经网络求解聚类问题

作者|Harper审核|gongyouliu编辑|gongyouliu 上期给大家讲到了利用神经网络求解分类问题,我们知道人工神经网络最擅长的两件事就是分类与聚类,我们本期要介绍的就是利用神经网络求解聚类问题。 使用监督学习固然很好,但并不适合所有的问题。首先,你并不总是能够获得大量的标记数据。有的时候你可能也不想将你的数据分类为已经存...

2022-06-18 14:12:54 49

原创 大数据的关键思考系列26:大数据与医疗

作者|Harper审核|gongyouliu编辑|gongyouliu在之前的内容中,我们讲到了“大数据与金融创新”,今天我们讨论的是“大数据与医疗”。说起看病,我想很多人都会觉得痛苦不堪。排队长、看病慢、费用高,如果换一家医院所有病例统统作废,需要重新做一遍检查。所以,很多中国人都有个愿望,就是能有医生、律师、会计师来做自己最贴心的顾问,帮助自己管理身体健康...

2022-06-11 17:35:50 54

原创 「认识AI:人工智能如何赋能商业」【26】利用神经网络求解分类问题

作者|Harper审核|gongyouliu编辑|gongyouliu 上期给大家介绍到了结合损失函数与梯度下降法来调优人工神经网络。从本期开始,我会给大家介绍人工神经网络如何解决分类与聚类问题。事实上这是神经网络最擅长解决的两个问题,希望通过这两期内容,可以帮助大家深入了解分类与聚类,以及它们之间的差异。 首先我们来看分类问题。对于分类...

2022-06-06 09:00:30 50

原创 大数据的关键思考系列25:大数据与金融创新

作者|橙子审核|gongyouliu编辑|gongyouliu在上一期的内容中,我们讨论了“大数据与零售业”,本期内容和大家聊一聊“大数据与金融创新”。有一份关于千禧一代和金融未来的报告引起了广泛关注。这份报告分析了出生于1980至2000年间、占据美国1/3人口的千禧一代的消费习惯。这份报告显示,1/2的千禧人认为他们的银行提供的产品和竞争者并无不同。2/3...

2022-06-05 08:11:19 51

原创 「大数据的关键思考系列」24:大数据与零售业

作者|橙子审核|gongyouliu编辑|gongyouliu在之前的内容中,我们讲到了“数据处理”,那么今天我们讨论的是“大数据与零售行业”。在一次关于物联网的讨论会中,12位来自各大企业的高管和专家聚在一起,讨论物联网对零售业的影响。他们预计,未来的销售机会将来自你家中的传感器。将来有一天,商品本身成了传感器,商品从工厂到批发到零售,最后到用户手中。可以想...

2022-05-31 09:00:09 153

原创 「认识AI:人工智能如何赋能商业」【25】结合损失函数和梯度下降法

作者|Harper审核|gongyouliu编辑|gongyouliu我在上期内容里提到,我们需要让神经网络学习起来,然后也给大家介绍到了使用随机权重和随机偏置项,能够使网络应对不同的情况。那我们可能会希望使用一些方法使得我们的人工神经网络的正确率变得更高。那这就是我们本期要讲的内容。提高人工神经网络的一种方法是使用损失函数。损失函数,是一种将网络输出与目标输...

2022-05-29 08:36:33 31

原创 「认识AI:人工智能如何赋能商业」【24】让神经网络开始学习

作者|Harper审核|gongyouliu编辑|auroral-L让神经网络开始学习到目前为止,我们已经了解过了一个人工神经网络实例,相信大家都从中学习到了人工神经网络的工作原理。我们之前讲的神经网络,可以判断小狗的品种。当然这个神经网络必须自己学会如何判断,我们也可以给他提供帮助。通过有监督的学习,可以将一组训练图片和每只小狗的品种一起输入到网络中,然后,...

2022-05-19 22:02:04 26

原创 「认识AI:人工智能如何赋能商业」【23】添加权重与偏置项

作者|Harper审核|gongyouliu编辑|auroral-L添加权重与偏置项到上期内容为止,我们已经了解了人工神经网络工作的大致原理。本期内容给大家介绍的是在神经网络中添加权重与偏置项的作用。我们可以把神经元的输出想象成它的亮度:数值越高,神经元就越亮。还是以小狗图像中的625个神经元为例,每个神经元的输出范围从0(黑色)到1(白色)。每一个神经元与第...

2022-05-13 08:00:00 249

原创 「大数据的关键思考系列」23:数据处理(下)

作者|橙子审核|gongyouliu编辑|auroral-L数据处理(下)在上一期内容中,我们讲到数据处理要学会慢慢淡化数据,以及数据的标签化管理,那么今天我们讨论的是在数据中重要的是数据和数据之间的关系,而不是数据本身。谷歌做了一件非常惊人的事情,它能在不明白某个网页语言的情况下,知道其内容是什么。试想一下,如果你懂俄语,看出俄语网页里在讲什么,当然很简单。...

2022-05-11 08:00:00 177

原创 「认识AI:人工智能如何赋能商业」【22】理解激活函数

作者|Harper审核|gongyouliu编辑|auroral-L理解激活函数在人脑中,神经元会收集不同来源的输入,并整合这些输入,然后激活。接着把其输出发送给与其相连的其他神经元。那么人工神经网络中的节点工作方式是大致相同的。第一是收集,并对前一层神经元的输人进行加权,第二是汇总输人并添加偏置项,第三步是针对第二步中的和再通过激活函数进行变换(这个过程可以...

2022-05-10 08:10:00 29

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除