推荐系统
文章平均质量分 67
范涛
1:硕士毕业于中国科学技术大学;
2:曾就职深圳腾讯,现在就职百度
3:sina微博http://www.weibo.com/1680645085/
4:关注机器学习,数据挖掘,推荐系统和金融风险模型
展开
-
做爬虫时候遇到的中文字符编码问题(Python)
最近在用python爬豆瓣电影数据,一如既往的采用BeautifulSoup,遇到的问题很多。在爬数据时候,很多例外没考虑到,比如豆瓣上有的电影主页压根没用上映时间,用户名缺失等一系列例外。当我一个个修复这些bug后,信心满满以为可以结束工作,喝着咖啡,只需看着自己的小爬虫自己自动的爬取网页数据的时候,我发现我错了。当数据爬取下来的时候,就是写入文件的问题。中文字符竟然出现了无法写入?原创 2013-04-16 13:55:06 · 2735 阅读 · 0 评论 -
SVD Recommendataion System
协同过滤(Collaborative Filtering)是推荐系统的一个经典方法。但是大量的的用户信息,用户矩阵也过于稀疏,我们需要采用降维技术对用户矩阵进行降维。目前推荐系统采用的技术主要是SVD(奇异值分解)。(Singular Value Decomposition (SVD), also affectionately referred to in the literature as原创 2012-05-17 13:47:20 · 1240 阅读 · 0 评论 -
推荐系统之我读,我思,我惑
年前,开始系统接触推荐系统。说到这,我想提下,最早知道推荐系统,是源于研一的时候,一次实验室组会,一个本科生的毕设。他是用周的Heat spread 方法,其实就是利用二部图方法进行推荐。数据是一个用户和物品的连接关系的二部图。其实,这个方法很简单,也很容易实现。但是,后来,开始接触项亮的博士论文的时候,开始知道推荐系统主流的方法:协通滤波。这里用基于物品,基于用户的。值得提的是,Amazon原创 2012-05-17 13:31:13 · 1050 阅读 · 0 评论 -
利用BeatifulSoup包学习爬虫,抓取《今晚看啥》电影评分和标签
最近,突然有想学习下爬虫,其实,在当初看《集体智慧编程》的时候,就接触过爬虫,只不过没怎么深入学习python下工具包:BeatifulSoup。这个包主要用来解析html和xml文件。我们做爬虫主要是就是为了抓取网页中我们需要的信息,利用BeatifulSoup,我们可以很快的解析网页文件,获取网页中我们需要的信息。实际案例,我以百度旗下《今晚看啥》网站为例,抓取电影评分,标签,作者,标题等等。原创 2013-03-23 20:38:03 · 1766 阅读 · 4 评论 -
web2.0时代,我的认知
web2.0时代,整个互联网充满了智能化。我们在互联网留下的历史信息,包括我们点击行为,购买行为等,均将被充分利用。通过数据挖掘技术,互联网可以了解到我们的爱好,进行精准的推荐。可以,向我们推荐个性化的电影,音乐,新闻,甚至美食。个人感觉,未来的互联网时代,搜索和推荐将发挥越来越重要的作用,深入我们每一个人的生活。现在的搜索引擎,仍然是用户输入,引擎被动的接收任务,返回用户的想要的内容,虽然,原创 2012-05-17 13:48:02 · 1728 阅读 · 0 评论 -
新浪微博如何找出专家和高质量的微博贴? ------spear ranking 算法
在微博上,我们可以看到各种转微博行为,有人转微博,有微博被转? 我们能不能通过这些转发行为来找出微博上权威专家用户和高质量微博贴? 我觉得是可以的。但是,这里有个问题,我们的算法必须能做到反作弊,对那些作弊的用户或者作弊的微博贴,我们能侦查出来,而不会给出高分。简单的说明:比如一个贴被一群水军疯狂转发,一个微博人疯狂转各种低质量的微博。在web2.0 搜索时代,有两个出名的ranking算法:原创 2013-09-07 13:09:16 · 2349 阅读 · 1 评论 -
微博好友推荐算法-SALSA
在微博上,你关注的人会是谁?微博网络中几亿用户,如何在里面找出你感兴趣的人推荐给你? 从系统层面上来看,这个是很有挑战性的工作,即涉及到好的推荐算法能把握用户的喜好和关注点,同时也要良好计算系统能够快速响应。这里主要谈论微博好友推荐算法部分(Twitter上的推荐算法)。 首先看下面的用户关注之间的二部图(1),左边是用户圈,就是用户的信任圈子,右边的是用户信任圈集合用户关注的所用用户,我原创 2013-05-26 11:14:01 · 5485 阅读 · 0 评论 -
互联网恶意用户的排序算法
A robust ranking algorithm to spamming论文链接 http://iopscience.iop.org/0295-5075/94/4/48002周涛博文:http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=562170周涛的方法如下:恶意用户是一个让所有互联网原创 2012-05-17 14:05:01 · 1499 阅读 · 0 评论 -
读周涛团队--挖掘社会网路意见领袖论文
对于社会网络来说,网络中会存在一些非常重要的节点,消息通过这些节点传播会非常的快。就像如果想要非常好的营销策路,我们有时会寻找有很多知名度业界人士选用自己的产品,广告的作用也是如此。当我们阅读博客的时候,名人效应是很明显的,我们会跟踪一些行业领袖的博客,这样,我们能得到行业最前研信息。这个时候,我就想到名人的社会责任感问题,名人的确应该和时刻注意自己的言行,他们一言一行在当今发达的信息传播中是传播原创 2012-05-17 13:52:12 · 2346 阅读 · 0 评论