• 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 教师节特别活动预告:第四范式自研的技术平台及其应用实践

三人同行,必有我师!在“教师节”来临之际,天枢特别邀请三位资深技术咖:范式业务产品架构师邢少敏、范式特征工程数据库负责人王太泽、范式机器学习系统架构师石光川,于9月10日周四18:00-19:30进行线上直播分享。本次分享的主题包含:1. 智能搜索在零售行业的应用和探索2. 范式自研的实时特征存储引擎RTIDB及其应用实践3. 范式自研的HyperCycle自动化建模平台及其应用实践欢迎大家扫码报名,转发扩散至更多的小伙伴!了解活动详细内容,请戳下方海报大图...

2020-09-08 15:00:20 422

原创 罗远飞:自动特征工程在推荐系统中的研究

第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法;以及如何结合大规模分布式机器学习系统,在显著降低计算、存储和通信代价的情况下,从数据中快速筛选出有效的组合特征。以下是罗远飞的分享:大家好!我是第四范式的罗远飞!‍很高兴能有机会和大家一起交流关于自动机器学习方面的一些工作。‍我在第四范式的工作大都和自动机器学习相关,之前的精力主要集中在自动特征工程。虽然模型改进能够带来稳定的收益,但是更为困难。‍所以如果是在做一个新的业务,‍可以先

2020-07-03 17:35:48 1534

原创 陈迪豪:推荐系统大规模特征工程与 Spark 基于 LLVM 优化

推荐系统学院(Recommended Systems Institute)是第四范式专门为推荐系统爱好者提供的分享推荐系统研究及其应用的系列课程。Spark作为目前最流行的大数据处理框架,在机器学习场景以及推荐系统中应用非常广泛。第四范式基于LLVM优化了Spark离线计算引擎,支持刚发布的Spark 3,在功能和性能上彻底解决Spark应用不能上线以及效率问题。本期主题本次将主要分享第四范式如何基于LLVM优化了Spark离线计算引擎。你可以:-了解推荐系统大规模特征工程的实现方案

2020-07-01 16:11:06 1038

原创 直播回顾 | 图推荐算法在E&E问题上的应用

导读:本次分享将围绕以图为基础衍生的一类推荐算法原理和应用,以及 E&E 问题 ( 如何应对新用户和新内容 ) 的一些处理方法。E&E 指探索与利用,是推荐系统当中的两个核心问题。主要内容包括: Background Related Work Our Work 01Background1.推荐系统在 E&E 上的两大难点在建立推荐系统的模型之前,我们需要获得用户和内容的相关数据。可是在推荐系统的实践中,经常会遇到冷启动的问题,即缺少.

2020-05-12 15:28:42 1103

原创 直播回顾|第四范式姚权铭:搜索协同过滤中的交互函数

导读:怎样刻画用户嵌入向量(user embedding)和物品嵌入向量(item embedding)之间的交互是在评分矩阵上面做协同滤波的关键问题。随着机器学习技术的发展,交互函数(interaction function)渐渐的由最初简单的矩阵内积,发展到现在复杂的结构化神经网络。本文介绍了第四范式研究组将自动化机器学习技术引入推荐系统中的一次尝试;特别地,将交互函数的设计建模成一个结构化神...

2020-02-19 17:50:17 1489

原创 Quora是如何做推荐的?

知乎联合创始人张亮在值乎上问了俞军老师一个问题,「以您的使用体验看,您觉得知乎现在最急需做的三到五项产品改进是哪些?」俞军老师的回答中给的第一个意见就是,「个性化内容的挖掘和推送,我知道知乎里有大量内容是我感兴趣的,但知乎推送的内容只有很少是我愿意点击的,总让我有种入宝山而空回的感觉,这方面网易云音乐、淘宝、今日头条都是不错的学习对象。」那么,有着“美版知乎”之称的Quora是如何做推荐的呢...

2019-12-11 18:09:27 1210

原创 爱奇艺个性化推荐排序实践

1.背景在当前这个移动互联网时代,除了专业内容的丰富,UGC内容更是爆发式发展,每个用户既是内容的消费者,也成为了内容的创造者。这些海量的内容在满足了我们需求的同时,也使我们寻找所需内容更加困难,在这种情况下个性化推荐应运而生。个性化推荐是在大数据分析和人工智能技术的基础上,通过研究用户的兴趣偏好,进行个性化计算,从而给用户提供高质量的个性化内容,解决信息过载的问题,更好的满足用户的需求。...

2019-12-05 17:29:07 1037

原创 直播预告|自动特征工程在推荐系统中的应用研究

专注于做推荐系统的你,在工作中有没有遇到过以下这些情况?做推荐屡屡受挫,很多时候知道方法却没法用,只能没日没夜debug?想提升技术能力却遇瓶颈,遇到问题脑袋一团浆糊,有时崩溃到怀疑人生?推荐系统领域的人才不少,就是一个也不认识,感叹无敌是多么的寂寞?一个优秀的推荐引擎在搭建和迭代过程中,总会面临大大小小各种各样的问题,然而无论在具体问题的解决上,还是在新技术的普及上,很多同学对推荐系统技...

2019-11-13 14:26:01 760

原创 基于Elastic Search的推荐系统“召回”策略

当我们打开一个资讯APP刷新闻时,有没有想过,系统是如何迅速推送给我们想看的内容?资讯APP背后有一个巨大的内容池,系统是如何判断要不要将某条资讯推送给我们的呢?这就是今天想跟大家探讨的问题——推荐系统中的“召回”策略。推荐系统中的召回召回策略主要满足的是能够从海量的数据中召回一部分相关的候选集,在实现方法上也有很多种,主要可以分为离线召回和在线召回。离线召回的方法主要有协同过滤、聚类算法...

2019-10-31 17:29:18 2440

原创 人工智能领域的顶级学术会议大全(二)

不管是工业界还是学术界,了解一个学科或一个行业的前沿、热点,势必要不断获取最新最热门的研究内容。看到好多同学询问人工智能方面的期刊、顶会,看到这篇文章的你不用担心啦!中国计算机学会整理出了和计算机学科相关的顶会和期刊,还作了区分,先荐将其中与人工智能相关的部分专门整理出来,方便大家查阅。在上一篇文章中我们介绍了人工智能领域的顶级学术期刊,今天介绍的则是与之相关的顶会。以下的学术会议基本涵盖了和...

2019-10-22 17:18:17 1211

原创 人工智能领域的顶级学术期刊大全(一)

不管是工业界还是学术界,了解一个学科或一个行业的前沿、热点,势必要不断获取最新最热门的研究内容。看到好多同学询问人工智能方面的期刊、顶会,看到这篇文章的你不用担心啦!中国计算机学会整理出了和计算机学科相关的顶会和期刊,还按照刊物级别作了区分,先荐将其中与人工智能相关的部分专门整理出来,方便大家查阅。下边的这一篇是与人工智能相关的学术期刊,与之相关的顶会我们会在下一篇文章中依次介绍。以下的学术期...

2019-10-22 17:15:41 10203

原创 学习推荐系统必看的10篇RecSys论文,收藏!(官方推荐)

先荐导读:深入学习任何一门学科,都离不开对前沿知识的了解。对于推荐系统学习者来说,一年一度的RecSys大会就是了解学术界与工业界研究热点的最佳平台。鉴于此,在这篇文章中,我们把过往的RecSys论文整理成一个清单,列出了大家学习推荐系统必看的10篇RecSys论文。下边这5篇是根据ACM数字图书馆中的阅读量整理出来的。在已发表的925篇论文中,这五篇论文是阅读量最高的。这五篇论文约占所有Rec...

2019-10-22 17:01:46 2016

原创 关于推荐系统,RecSys 2019大会都讨论了什么?(附论文下载)

关键词:推荐系统、深度学习、以用户为中心、可再现性和多任务处理2019年的推荐系统大会(Recsys) 于今年的9月份在丹麦哥本哈根举行,来自世界各地的909位专家、学者参与了此次会议,迄今为止规模最大的一次。大会涵盖了与推荐系统相关的主题,从推荐系统的社会影响到搭建推荐系统所用的算法。今年,除了从算法和方法的角度来看待“推荐系统”这一领域外,我们还通过发现、解决推荐系统中存在的问题来进一步认...

2019-10-10 18:49:38 1648

原创 机器学习过程中,我们该如何分析数据集?

拿到一个数据集,我们应该怎么做?在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。为什么要先分析数据集?探索性分析是为了更好地了解数据集...

2019-09-25 18:42:56 2844 3

原创 机器学习就等同于算法吗?

在当前的推荐系统中,很多使用了机器学习,有些已经用到了深度学习。那么,机器学习就等同于一堆的算法吗?答案是:机器学习≠算法。机器学习≠算法当我们打开一本教科书,或者大学的教学大纲,通常看到的都是一堆的算法列表。这也让大家造成了这样的误解:机器学习就是掌握一系列的算法。其实,机器学习并不止步于算法,我们可以把它看做是解决问题的一种综合方法。我们看到的一个个独立的算法,只不过是难题的一角,剩下...

2019-09-23 11:28:51 2949

原创 大数据流式计算存在的挑战

大数据流式计算系统存在诸多挑战,如资源调度、系统容错、动态时间窗口、高效索引策略等诸多方面。本文将从大数据流式计算系统架构的角度,针对当前大数据流式计算环境中存在的两个方面的典型问题进行系统化的分析,即在线环境下的资源调度问题和节点依赖环境下的容错策略问题,并原则性地分别给出了两类问题的解决策略。1. 在线环境下的资源调度资源调度是分布式系统中资源管理的关键与核心,也是NP难问题,制约着整个系...

2019-09-16 19:12:43 1509

原创 流式计算的应用特征

流式计算可以广泛应用于金融银行、互联网、物联网等诸多领域,如股市实时分析、插入式广告投放、交通流量实时预警等场景,主要是为了满足该场景下的实时应用需求。数据往往以数据流的形式持续到达数据计算系统,计算功能的实现是通过有向任务图的形式进行描述,数据流在有向任务图中流过后,会实时产生相应的计算结果。整个数据流的处理过程往往是在毫秒级的时间内完成的。通常情况下,流式计算场景具有以下鲜明特征。在流...

2019-09-11 19:32:59 1924

原创 流式计算的三种框架:Storm、Spark和Flink

我们知道,大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。目前主流的流式计算框架有Storm、Spark Streaming、Flink三种,其基本...

2019-09-10 19:31:06 3285

原创 什么是流式计算?

一、流式计算的背景在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。...

2019-09-09 19:19:26 7827

原创 案例|推荐系统的评估指标

推荐系统能够为用户提供个性化体验,现在基本上各大电商平台、资讯平台都会用推荐系统为自家评价下的用户提供千人千面的服务。平均精度均值(Mean Average Precision,MAP)便是评估推荐系统性能的度量标准之一。但是,使用其他诊断指标和可视化工具可以让模型评估更加深入,甚至还会带来一些其他启发。本文探讨了召回率、覆盖率、个性化和表内相似性,并使用这些指标来比较三个简单的推荐系统。Mo...

2019-09-04 15:26:13 1615

原创 用于推荐系统评估的概念与指标(2)

在上一篇文章《用于推荐系统评估的概念与指标》中,我们介绍了用于推荐系统评估的概念:实用性。在接下来的文章中,我们会介绍新颖性与多样性。新颖性新颖性通常指在推荐中出现新的物品,这在不同文献中有不同的定义。在此,我们将新颖性的定义和指标分为三个层次,如下表所示。本文中把新颖性指标称为

2019-08-29 19:46:04 833

原创 用于推荐系统评估的概念与指标

在推荐系统中,研究人员为了能让预测结果对用户提供更多价值,会关注用户满意度。鉴于推荐系统除了让用户购买更多的相似产品外,还必须对用户而言“有用”,研究人员还会关注用户在使用系统时的交互体验和消费体验。 目前,研究人员正在通过评估不同的指标来解决这个问题,而不是简单地通过预测准确度和机器学习技术。推荐系统的性能应该由它为用户产生的价值来衡量。在推荐系统的评估问题上,目前有很多指标,比如说覆盖率、新...

2019-08-28 20:21:26 1142

原创 如何解决推荐系统中的冷启动问题?

当新用户或新项目进入内容平台时,就会出现冷启动(Cold Start)问题。以协同过滤这样的经典推荐系统为例,假设每个用户或项目都有评级,这样我们就可以推断出类似用户/项目的评级,即使这些评级没办法调用。但是,对于新进入的用户/项目,实现这一点很困难,因为我们没有相关的浏览、点击或下载等数据,也就没办法使用矩阵分解技术来“填补空白”。不过,研究人员已经提出了各种方法来解决冷启动问题。在这篇文章...

2019-08-22 18:14:32 2888

原创 推荐系统如何处理数据?

据统计,全球数据总量预计2020年达到44ZB,中国数据量将达到8060EB,占全球数据总量的18%。现阶段我们所讨论的人工智能,很大程度上都是在谈“人工智能”这个大概念下机器学习领域中的深度学习技术。它的底层原理相对简单,对数据有很大的依赖性,本质上是一种基于大数据的统计分析技术。推荐系统作为人工智能的落地场景之一,对数据的依赖性不言而喻。企业通过前期的数据收集,全面了解自身的产品和目标用户;...

2019-08-19 18:55:47 1680

原创 推荐系统:算法概述

如今,许多公司都会开发与自己业务息息相关的推荐系统。先荐作为第四范式研发的一款智能推荐产品,已为内容行业的众多媒体客户赋能,实现客户的营收增长。在本文中,我们将会简要介绍现有的主要推荐算法及其工作原理。协同过滤协同过滤(CF)是最常用的推荐算法之一,即使推荐系统小白也可以轻松上手,用它来构建属于自己的个人电影推荐系统。当我们想向用户推荐某些内容时,最合乎逻辑的做法是找到与这个用户兴趣相似的其...

2019-08-18 21:08:19 965

原创 推荐系统:混合过滤

在之前的两篇文章中,我们分别讲了推荐系统中的基于内容的过滤和协同过滤技术,今天我们一起看看看混合过滤。推荐系统为了避免单一推荐技术带来的限制和问题,同时也为了能够获得更好的性能,会结合不同的推荐技术。混合过滤依据的想法是,一种算法可以弥补另一种算法的缺点,多个算法的组合将比单个算法能更准确、有效地提供推荐。使用多种推荐技术能够弥补模型中某种技术存在的缺陷。组合方法可以是以下任何一种:分别实现...

2019-08-15 16:02:00 1078

原创 推荐系统:协同过滤及其利弊

在上一篇文章中,我们谈到了推荐系统中基于内容的过滤及其利弊,今天我们来看看协同过滤。与基于内容的过滤(CBF)不同,协同过滤(Collaborative Filtering)技术独立于域,适用于无法利用元数据充分描述的项目,如电影、音乐等。协同过滤技术(CF)首先会构建用户项目偏好的数据库,即user-item矩阵,然后,计算用户画像之间的相似性,匹配具有相似的兴趣爱好的用户,完成整个推荐。这...

2019-08-14 11:45:12 1611

原创 推荐系统过滤技术:基于内容的过滤及其利弊

在上一篇文章中,我们介绍了推荐系统的主要工作流程。在接下来的文章中,我们会详细分析推荐系统中的过滤技术。推荐系统中不同的过滤技术推荐系统要想为用户提供切实有用的推荐服务,高效、准确的推荐技术至关重要,也就是说,理解不同推荐过滤技术的特征和潜力至关重要。下图显示了推荐系统中不同的过滤技术:推荐系统中不同的过滤技术基于内容的过滤技术(Content-based filtering)基于内...

2019-08-13 14:11:31 2312

原创 推荐系统的工作流程

在互联网飞速发展的现代社会,人们每天都要受到成百上千条信息的轰炸,APP推送、新闻热点、信息流广告……一个有效的“信息过滤器”已经成为了人们日常生活的刚需,也是信息供应商在激烈的市场环境中脱颖而出的必杀技。推荐系统正扮演着这样一个角色,它如同筛子一般,帮我们找到最想要的内容。但是,推荐系统过高的技术门槛和研发成本把很多企业挡在了门外。第四范式基于机器学习技术推出的智能推荐产品先荐,专注于内容行业...

2019-08-08 18:53:35 1037

原创 如何用Python搭建一个简单的推荐系统?

推荐系统的相关知识我们已在前文中提到,在这篇文章中,我们会介绍如何用Python来搭建一个简单的推荐系统。本文使用的数据集是MovieLens数据集,该数据集由明尼苏达大学的Grouplens研究小组整理。它包含1,10和2亿个评级。 Movielens还有一个网站,我们可以注册,撰写评论并获得电影推荐。接下来我们就开始实战演练。在这篇文章中,我们会使用Movielens构建一个基于item的...

2019-08-06 19:22:08 929

翻译 没有用户数据时如何搭建推荐系统?用这三种办法!

即使没有用户数据,我们仍能搭建高效的推荐系统,向用户展示更多优质内容,让用户参与其中。太长不看版:第一步便是搭建基于内容的推荐系统,这种推荐系统会给用户推荐其他类似的商品,但并不依赖其他用户的数据。这些特征(即数学表达式,推荐算法需借助内容条目不同方面的表达式才能得以运算)来自于内容条目本身,并非用户行为。有了书面文本,我们便可以使用语义技术提取文本特征。以上述推荐系统为基准模型,我们可以引...

2019-07-16 16:36:53 504

原创 快手商业副总裁严强:AI+DA驱动短视频社交商业高速增长

本账号为第四范式智能推荐产品先荐的官方账号。账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也希望为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每个人都享受到人工智能创造的价值。日前,第四范式先荐在北京举办2019“人工智能+新内容”论坛,快手商业副总裁严强在现场发表了名为《AI+DA驱...

2019-07-05 11:52:16 1382

原创 您收到一封来自“人工智能+新内容”论坛的邀约,请查收

致热爱AI技术的你:AI技术正深刻改变着内容行业。从内容生产到内容分发,再到内容营销,内容行业的每一个环节都有AI技术的渗透:个性化推荐、智能剪辑、机器写作、违规内容处理、聊天机器人……毫不夸张地说,决定内容影响力的因素除了内容本身质量之外,另一个重要因素便是技术。7月2日,第四范式先荐将于北京西区剧场举办“人工智能+新内容”论坛,届时与业内外诸多人士共同探讨人工智能在内容行业的更多可能。在...

2019-07-01 19:40:34 777

原创 AutoML如何实现智能推荐系统的自动上线和运维?

第四范式先荐在2050大会上召集了《新媒体结合人工智能后的裂变》主题的新生论坛,第四范式资深科学家王嘉磊博士在论坛上分享了如何通过AutoML实现智能推荐系统的自动上线和运维。演讲嘉宾简介王嘉磊,第四范式资深科学家,负责设计实现第四范式 AutoML 产品算法,美国康奈尔大学运筹学博士,研究方向为贝叶斯优化及应用于自动化机器学习。以下是演讲实录:智能推荐系统领域出现了一些新技术——自动机器...

2019-05-20 14:58:57 975

原创 如何利用人工智能技术提高网文生产的运营效率?

在杭州云栖小镇举办的2050@2019大会上,“第四范式先荐”召集了《新媒体结合人工智能后的裂变》主题新生论坛,来自阅文集团的陈炜于分享了如何利用人工智能,提高网文生产整个周期的运营效率。以下是演讲实录:演讲嘉宾简介:陈炜于,阅文集团智能业务中心负责人,负责阅文集团的智能技术建设,包括推荐,搜索,用户画像,文本挖掘,内容风控等数据智能方向。曾在百度负责精准广告系统,用户画像系统,百度推荐,用户...

2019-05-17 17:56:31 1119

原创 如何实现AI赋能新媒体的技术落地?

在人工智能技术飞速发展的今天,无论是金融、医疗还是新零售,几乎各行各业都在享受着科技发展带来的红利,现在许多类似“媒体大脑”的人工智能产品已经开始广泛服务于媒体运营建设,除此之外,机器学习技术还能够以怎样的形态赋能新媒体呢?为此,先荐在今年的2050大会新生论坛上召集了一批媒体行业资深人士和人工智能领域技术专家,共同探索AI赋能新媒体的技术落地新趋势。人工智能技术在媒体领域的应用落地情况媒体...

2019-05-09 11:18:34 1138

翻译 如何为「纽约时报」开发基于内容的推荐系统

我们在帮助纽约时报(The New York Times,以下简称NYT)开发一套基于内容的推荐系统,大家可以把这套系统看作一个非常简单的推荐系统开发示例。依托用户近期的文章浏览数据,我们会为其推荐适合阅读的新文章,而想做到这一点,只需以这篇文章的文本数据为基础,推荐给用户类似的内容。数据检验以下是数据集中第一篇NYT文章中的摘录,我们已经做过文本处理。'TOKYO — State-ba...

2018-09-21 14:13:32 283

先荐-猜你喜欢(相关文章插件)提升pv,降低跳出率的网站插件

先荐是人工智能领先企业第四范式投入巨资研发出一款基于用户阅读兴趣的内容推荐工具。通过对网站内容和用户阅读行为做深度挖掘,智能化地为网站用户提供感兴趣的内容,从而大幅提升网站PV和用户粘性。(插件目前仅支持wordpress) 先荐具有以下几大优势: 【提升PV】精准推荐用户感兴趣内容,大幅提升网站PV和粘性 【利于SEO优化】契合主流搜索引擎公司抓取规则,有效提升网站排名和权重 【使用便捷】安装插件后,即可一键配置上线,无须额外操作 【内容管理】强大运营干预功能,可轻松管理推荐内容 【数据统计】全面的数据分析,PV和粘性提升,一览无余

2018-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除