
排序算法
飞翔的熊blabla
开发了一些列工具,指数提升代码速度
http://www.520webtool.com
展开
-
深度丨从零搭建推荐体系
概述及标签体系搭建1 概述随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大的信息负担。推荐系统可以有效缓解此难题,从而得到推崇并加以广泛应用。简单来说:推荐系统是通过挖掘用户与项目之间的二元关系,帮助用户从大量数据中发现其可能感兴趣的项目如网页、服务、商品、人等,并生成个性化推荐以满足个性化需求。目前市场上对于电子商务的推荐系统有亚马逊、阿里巴巴、豆瓣网、转载 2017-11-20 20:12:21 · 2066 阅读 · 0 评论 -
python-recsys:一款实现推荐系统的python库
python-recsys是一个用来实现推荐系统的python库。安装依赖项python-recsys构建于Divisi2(基于语义网络的常识推理库)之上,使用了csc-pysparse(稀疏矩阵计算库),而Divisi2依赖于NumPy和Networkx库。另外python-recsys也依赖于SciPy库。安装依赖库过程如下(以Ubuntu为例):转载 2017-11-20 20:29:22 · 2400 阅读 · 2 评论 -
饿了么推荐系统:从0到1
转载于 http://geek.csdn.net/news/detail/134876随着移动互联网的发展,用户使用习惯日趋碎片化,如何让用户在有限的访问时间里找到想要的产品,成为了搜索/推荐系统演进的重要职责。作为外卖领域的独角兽, 饿了么拥有百万级的日活跃用户,如何利用数据挖掘/机器学习的方法挖掘潜在用户、增加用户粘性,已成为迫切需要解决的问题。个性化推荐系统通过研究用户的兴趣转载 2017-11-20 22:42:27 · 591 阅读 · 0 评论 -
推荐系统不相信眼泪,但此算法会给你些安慰
转载于 http://iyao.ren/2017/02/28/itemcf/众所周知,解决信息过载的方式主要有类目导航、搜索、推荐,还有目前大热的聊天机器人(chatbot),但其本质也是基于推荐系统和知识图谱实现的。推荐不同于或者优于搜索的地方在于:搜索需要用户知道自己需要什么,而推荐则可以做到帮助用户发现自己需要什么或者让你需要的信息主动找到你,而且更加个性化,甚至能做到“比你自己更了转载 2017-11-20 23:04:00 · 1244 阅读 · 1 评论 -
使用Mahout搭建推荐系统之入门篇2-玩转你的数据1
三. 不错的数据来源[1] GroupLens数据集(推荐相关:电影数据\书\笑话等): http://grouplens.org/datasets/[2] UCI数据集(数据丰富,无所不包) http://archive.ics.uci.edu/ml/index.html[3] Kaggle数据(数据丰富,规范,KDD2012是腾讯提供的微博数据) http://www.kddcup转载 2017-11-20 23:31:16 · 322 阅读 · 0 评论 -
《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)
转载于:http://blog.csdn.net/gamer_gyt/article/details/513461591:协同过滤算法简介2:协同过滤算法的核心3:协同过滤算法的应用方式4:基于用户的协同过滤算法实现5:基于物品的协同过滤算法实现一:协同过滤算法简介 关于协同过滤的一个最经典的例子就是看电影,有时转载 2017-11-15 19:57:06 · 5615 阅读 · 1 评论 -
我们分析了10000条视频,终于知道了今日头条推荐系统的秘密
本文首发于 视频帮平台(ID:kbstreet),作者齐穆。大数据获授权转发,如需转载请与首发公众号联系,谢绝二次转载。就算法机制平台而言,播放量绝大部分取决于【推荐量】。受“今日头条金秒奖组委会”的邀请,视频帮就“金秒奖”第一季度累计3.04亿播放量的10166个参赛短视频进行了专业分析。由今日头条主办的“金秒奖”(jmj.toutiao.com)是首个短视频行业转载 2017-11-15 20:02:34 · 56312 阅读 · 3 评论 -
Django 基础教程
一个很好的python Django网站: https://code.ziqiangxuetang.com/django/django-url-name.html不是广告哦转载 2017-11-21 13:26:49 · 343 阅读 · 0 评论 -
PersonalRank:一种基于图的推荐算法
上面的二部图表示user A对item a和c感兴趣,B对a b c d都感兴趣,C对c和d感兴趣。本文假设每条边代表的感兴趣程度是一样的。现在我们要为user A推荐item,实际上就是计算A对所有item的感兴趣程度。在personal rank算法中不区分user节点和item节点,这样一来问题就转化成:对节点A来说,节点A B C a b c d的重要度各是多少。重要度用PR来表示转载 2017-11-30 18:50:12 · 2854 阅读 · 0 评论 -
正则表达式太慢?这里有一个提速100倍的方案(附代码)
“当遇到一个文本处理问题时,如果你在第一时间想到了正则表达式,那么恭喜你,你的问题从一个变成了俩!“如果你曾参与过文本数据分析,正则表达式(Regex)对你来说一定不陌生。词库索引、关键词替换……正则表达式的强大功能使其成为了文本处理的必备工具。然而, 在处理大文本的情境下,正则表达式的低效率却常常让人抓耳挠腮。今天,文摘菌将为你介绍一款比正则表达式快数百倍的Python库——转载 2017-12-21 14:05:24 · 492 阅读 · 0 评论 -
头条相关的研究论文里的方法
今日头条流行的主要原因是抓住了受众对个性化需求的心理。对用户需求的研究结果表明,“个性化推荐”(60.79%)、“更新速度快”(60%)、“推送内容多(45.26%)是用户最为强烈的三种动机。个性化主要体现在三个方面:频道定制:用户可以订阅自己感兴趣的频道(“今日头条”提供了社会、娱乐、政治、热点等48个频道),同时提供位置信息享受本地化新闻服务(还包含同城活动信息),而且“今日头条”也和转载 2017-11-20 20:08:11 · 561 阅读 · 0 评论 -
word2vec原理推导与代码分析
本文摘录整编了一些理论介绍,推导了word2vec中的数学原理;并考察了一些常见的word2vec实现,评测其准确率等性能,最后分析了word2vec原版C代码;针对没有好用的Java实现的现状,移植了原版C程序到Java。时间和水平有限,本文没有就其发展历史展开多谈,只记录了必要的知识点,并着重关注工程实践。虽然我的Java方案速度比原版C程序高出1倍,在算法代码与原版C程序一致转载 2017-11-20 19:27:59 · 372 阅读 · 0 评论 -
一、什么是长连接
HTTP1.1规定了默认保持长连接(HTTP persistent connection ,也有翻译为持久连接),数据传输完成了保持TCP连接不断开(不发RST包、不四次握手),等待在同域名下继续用这个通道传输数据;相反的就是短连接。 HTTP首部的Connection: Keep-alive是HTTP1.0浏览器和服务器的实验性扩展,当前的HTTP1.1 RFC2616文档没有对它做说明转载 2017-11-20 19:11:09 · 13564 阅读 · 0 评论 -
非常好的协同过滤入门文章
转载于:http://www.cnblogs.com/wentingtu/archive/2011/12/16/2289926.html“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建转载 2017-09-19 14:14:55 · 575 阅读 · 0 评论 -
基于用户投票的排名算法:威尔逊区间
迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名。一种常见的错误算法是: 得分 = 赞成票 - 反对票假定有两个项目,项目A是60张赞成票,40张转载 2017-09-19 18:08:07 · 384 阅读 · 0 评论 -
基于用户投票的六大排名算法研究
随着互联网的发展,网站的数量也在随着成倍的增加着,就中国的互联网来说,根据中国互联网信息中心的数据显示,目前中国的网站数量每半年都会以接近10%的数量增长。这些大量的网站涌现,也就意味着我们已进入了“信息大爆炸”的时代。而如今用户担心的已不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。所以各种各样的排名算法,已成为目前过滤信息的主要手转载 2017-09-19 18:11:13 · 1635 阅读 · 0 评论 -
基于用户投票的排名算法(一):Delicious和Hacker News
互联网的出现,意味着"信息大爆炸"。用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。转载 2017-10-15 21:22:13 · 274 阅读 · 0 评论 -
基于用户投票的排名算法(二):Reddit
(不好意思,这个系列中断了近两周,我会尽快在这几天,把后面几篇写完。)上一次,我介绍了Hacker News的排名算法。它的特点是用户只能投赞成票,但是很多网站还允许用户投反对票。就是说,除了好评以外,你还可以给某篇文章差评。Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出转载 2017-10-15 21:26:05 · 331 阅读 · 0 评论 -
基于用户投票的排名算法(三):Stack Overflow
Reddit 排名算法的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 Stack Overflow,就是这样一个网站。你在上面提出各种关于编程的问题,等待别人回答。访问者可以对你的问题进行投票(赞成票或反对票),表示这个问题是不是有价值。转载 2017-10-15 21:29:10 · 320 阅读 · 0 评论 -
基于用户投票的排名算法(六):贝叶斯平均
(这个系列实在拖得太久,今天是最后一篇。)上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。以IMDB为例,它是世界最大的电影数据库转载 2017-10-15 21:30:52 · 389 阅读 · 0 评论 -
基于用户投票的排名算法(五):威尔逊区间
本文转载自:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。这时,时间因素就不需要考虑了。转载 2017-10-15 21:31:39 · 421 阅读 · 0 评论 -
Hacker News排名算法是怎样工作的:得分、争议和罚分
转载于 :http://blog.jobbole.com/52575/译者注:根据维基百科相关词条,Hacker News是一家关于计算机黑客和创业公司的社会化新闻网站,与其它社会化新闻网站不同的是, Hacker News 没有踩或反对一条提交新闻的选项;只可以赞成或是完全不投票。简而言之,Hacker News 允许提交任何可以被理解为“任何满足人们求知欲”的新闻。更新(11/转载 2017-10-25 17:40:11 · 6573 阅读 · 0 评论 -
Hacker News与Reddit的算法比较
http://www.cnblogs.com/zhengyun_ustc/archive/2010/12/15/amir.htmlHacker News与Reddit的算法比较郑昀 20101213Hacker News是Y Combinator旗下的一个新闻频道,属于digg类产品,SEOmoz曾经在2008年7月隆重推出Reddit、St转载 2017-10-25 18:10:27 · 568 阅读 · 0 评论 -
成为一名推荐系统工程师永远都不晚
转载于:http://blog.csdn.net/qq_40027052/article/details/78579587推荐系统工程师技能树掌握核心原理的技能数学:微积分,统计学,线性代数周边学科:信息论基础推荐算法: CF,LR,SVM,FM,FTRL,GBDT,RF,SVD,RBM,RNN,LSTM,RL数据挖掘:分类,聚类,回归,降维,特征选择,模型评价实现转载 2017-11-20 19:00:11 · 489 阅读 · 0 评论 -
VMTools 挂在 hgfs 无挂在数据的解决方案
参考网站:https://xpressubuntu.wordpress.com/2015/05/11/resolving-no-shared-folders-with-vmware-player-7-and-ubuntu-15-04-guest/comment-page-1/#comment-708先群安装对应的vm-tools$ git clone https://github.co原创 2017-12-05 20:33:15 · 315 阅读 · 0 评论