数据挖掘算法
文章平均质量分 68
源远流长
余镇源的技术博客:主要在搜索引擎,大数据,推荐,后端领域
展开
-
智能推荐架构演进
从18年开始,整个推荐开始从小作坊转向正规军前进,开始将重复造轮子的事,不断抽象优化,往平台方向靠拢;随着推荐业务场景越来原创 2020-10-09 16:04:33 · 482 阅读 · 1 评论 -
推荐策略平台与ABTEST实验结合
推荐策略平台与ABTEST实验整体实现过程首先先看下整体推荐架构流程,如图所未:推荐策略平台与实验平台都有业务&场景的粒度配置,他们都覆盖多个业务场景,所以以某一个业务场景粒度来看因为推荐策略平台已实现将实验平台主要是配置,与推荐策略平台打通,...原创 2020-09-29 19:23:36 · 679 阅读 · 0 评论 -
推荐策略平台
推荐策略平台一、项目背景与目标1、背景概况 推荐业务接⼝内部逻辑⿊盒,且耦合在⼀起,重⽤困难,开发⾮常耗时。 接⼝协议按需制定,没有标准化,新来一个业务开发完接⼝都要重新找⼈对接⼀遍 越来越多的业务推荐业务场景,开发效率慢,重造轮子成本明显太高 2、目标成果 减少⼈力和时间成本:对接通⽤接⼝,只需一份⽂档即可对接,减少沟通成本;拆成模块,配置成图即完成⼀个业务,提高搭建服务效率 为决策提供便利:决策者可通过业务流程图,结合报表,调整和优化⽅方案,摆...原创 2020-09-29 19:06:27 · 947 阅读 · 0 评论 -
ABTEST实验平台
ABTEST实验与闭环一、单层实验一般早期的ab-test都是单层实验,逻辑非常简单,比如使用userId/deviceId做hash然后取模,将流 量打在0-99,做成100份。有如下问题:1、扩展性差,只能同时支持少量实验。但是以数据驱动的业务,需要极快的创新速度,大量的创新 需要被测试,会严重delay业务。2、如果在单层同时进行多个实验,实验之间不是独立事件,并行的时候,同一个策略,只能进行一 个实验,如果多个并行支持,无法实现。不同策略之间也有影响。3、流量饥饿问...原创 2020-09-29 16:51:32 · 2593 阅读 · 0 评论 -
推荐系统实时推荐架构演进
推荐系统实时召回引擎升级问题背景 用户体验问题,由于离线推荐性能问题,离线推荐大部分引擎只计算昨天活跃用户,当用户较前几天活跃时候,当用户打开app,触发拿到的推荐数据其实是比较老旧的; 离线推荐存量问题,在feed架构存储的数据也有比较多,原有设计都是为了避免离线推荐数据消费完无数据可推荐,但这个对于业务的调整都没感知,比如内容敏感下架,用户兴趣变化; 推荐数据不足,离线推荐的数据会很快受到用户的刷新过量快速消费完,导致召回源数据不足,多样性不够,需要补充引擎; .原创 2020-09-24 19:11:53 · 2173 阅读 · 0 评论 -
推荐视频反馈系统设计
反馈系统设计日志收集: 展示:带多一个vids参数,表示展示相关的视频集合,按展示顺序拼接起来 show_vids=12_32_32_32点击: 现有from_vid=1&to_vid=2 从哪个视频点击到哪个视频情况 日志计算:(MR程序实现)from_vid—>to_vid 的点击率存储:原创 2014-03-07 18:37:38 · 3398 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
原文:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧是指在大量的人群的行为和数据中收集答案,帮助你对整个人群得到统计意义上的结论,这些结论是我们在单个个体上无法得到的,它往往转载 2011-04-01 14:25:00 · 1335 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
原文:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工转载 2011-04-01 14:23:00 · 1191 阅读 · 0 评论 -
文本特征提取方法研究
<br />文本特征提取方法研究一、课题背景概述<br />文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是转载 2010-08-20 15:41:00 · 4308 阅读 · 0 评论 -
使用 Mahout 实现集群
Mahout 支持一些集群算法实现(都是使用 Map-Reduce 编写的),它们都有一组各自的目标和标准:Canopy:一种快速集群算法,通常用于为其他集群算法创建初始种子。k-Means(以及 模糊 k-Means):根据项目与之前迭代的质心(或中心)之间的距离将项目添加 到 k 集群中。Mean-Shift:无需任何关于集群数量的推理 知识的算法,它可以生成任意形状的集群。Dirichlet:借助基于多种概率模型的集群,它不需要提前执行特定的集群视图。从实际的角度来说,名称和实转载 2010-06-13 15:56:00 · 2370 阅读 · 0 评论 -
Slope one:简单高效的推荐算法
<br /><br />推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的其他书来,也算是技术极大的促进了销售。<br />一般的协同过滤算法,首先是收集用户对事物(产品)的评分情况,一种直接对某本书,或者某个歌曲打分,另种是隐性的打分,比如商务系统中,购买了表示打2分,浏览了打1分,其他的0分。我比较看好隐性打分,因为直接打分需要用户的参与程度比较高,很多网站都在内容页中留一个打分的按钮,转载 2010-06-11 18:31:00 · 957 阅读 · 0 评论 -
数学之美系列十二:余弦定理和新闻的分类
<br />余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。<br /><br />Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。<br /><br />我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性”一原创 2010-06-11 18:31:00 · 981 阅读 · 0 评论 -
solr 配置clustering
首先是在solrconfig.xml,添加 name="clusteringComponent" enable="${solr.clustering.enabled:true}" class="org.apache.solr.handler.clustering.ClusteringComponent" >default原创 2010-07-26 18:33:00 · 4460 阅读 · 6 评论