关闭

新闻个性化推荐系统(python)-(附源码 数据集)

标签: 新闻推荐python
10796人阅读 评论(20) 收藏 举报
分类:

1.背景


       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。

2.数据集




一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日(3就是3号)

3.代码部分


先来看下演示图  


     (1)算法说明

    
     举个例子简单说明下算法,其实也比较简单,不妥的地方希望大家指正。我们有如下一条数据
5738936	100649879	1394550848	MH370航班假护照乘客身份查明(更新)	11

       5738936这名用户在11号看了“MH370航班假护照乘客...”这条新闻。我们通过jieba找出11号的热点词如下。

失联	311	三周年	马方	偷渡客	隐形	护照	吉隆坡	航班	护照者	

       我们发现“航班”、“护照”这两个keywords出现在新闻里。于是我们就推荐5738936这名用户,11号出现“航班”、“护照”的其它新闻。同时我们对推荐集做了处理,比如说5738936浏览过的新闻不会出现,热度非常低的新闻不会出现等。


 (2)使用方法

  
      整个系统采用一键式启动,使用起来非常方便。首先建立一个test文件夹,然后在test里新建三个文件夹,注意命名要和图中的统一,因为新闻是有时效的,每一天要去分开来计算,要存储每一天的内容做成文档。test文档如下图,就可以自动生成。(下面的github链接提供了完整的test文档结构)


使用的时候,要先在Global_param.py中设置好test文件夹的路径参数。一切设置完毕,只要找到wordSplite_test包下面的main()函数,运行程序即可。

Global_param中设置参数说明:
      number_jieba:控制提取关键词的数量
      number_day:从第一天开始,要预测的天数
      hot_rate:预测集预测的新闻热度,数值越大热度越高

(3)代码流程


     首先我们从main()看起。
import Get_day_data
import Get_keywords
import Get_keynews
import Delete_Repeat
import Get_hot_result
import Global_param
def main():
    for i in range(1,Global_param.number_day):
        Get_day_data.TransforData(i)
        Get_day_data.TransforDataset(i)
        Get_keywords.Get_keywords(i)
        Get_keynews.Get_keynews(i)
    Delete_Repeat.Delete_Repeat()
    Get_hot_result.get_hot_result(Global_param.hot_rate)

main()    

    1.首先Get_day_data.TransforData(i)函数,找到最后一次浏览的是第i天的新闻的用户行为,存放在test/train_lastday_set目录下。

   2.Get_day_data.TransforDataset(i)函数,区分每一天的新闻,存放在test/train_date_set1目录下

   3.Get_keywords.Get_keywords(i)函数,调用jieba库,挑出每一天最火的keywords,存放在test/key_words下

   4.Get_keynews.Get_keynews(i)函数,通过每一个用户最后一次浏览的新闻,比对看有没有出现当天的热门keywords。如果出现,就推荐当天包含这个keywords的其它新闻。循环Global_param.number_day天,生成test/result.txt文件

   5. Delete_Repeat.Delete_Repeat()函数,去除result中的重复项,生成test/result_no_repeat.txt

   6.Get_hot_result.get_hot_result(Global_param.hot_rate)函数,因为上面生成的result_no_repeat函数可能出现,每个用户推荐过多的情况,影响准确率。所以用这个函数控制数量,每个用户只推荐新闻热度相对高的候选项。最终结果集
test/result_no_repeat_hot.txt


注意:test下的result.txt文件每执行一次程序要手动清空,其它文件都是自动生成不用处理。
项目地址:https://github.com/X-Brain/News-Recommend-System(src文件夹下是代码,test下是数据、和文档结构)

希望大家有什么建议,可以在博客留言,或者在github上发issue,希望有更多的人参与贡献。

/********************************

* 本文来自博客  “李博Garvin“

* 转载请标明出处:http://blog.csdn.net/buptgshengod

******************************************/




7
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

基于内容的简单相关新闻推荐系统方案

写作背景最近接手一个新闻项目,项目比较小,属于官网的一个支站,官网新闻条目有700多万条,我负责的支站新闻条目11万条,我想拿这个小支站用来练练手,做一个小的基于内容的新闻推荐,当用户看某片新闻时,旁边显示和这条新闻相关的新闻列表。总体思路站点比较小,简单点能实现要求就好,主要步骤如下所示 建立标...
  • whzhaochao
  • whzhaochao
  • 2016-02-05 17:18
  • 2230

5类系统推荐算法,告诉你用户需要什么

最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:     而对于刚接触这个领域的我来说,是这样的:   在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代...
  • wolaiye320
  • wolaiye320
  • 2016-06-29 00:08
  • 6203

新闻客户端推荐系统

  • 2014-12-26 09:43
  • 547KB
  • 下载

各大牛逼网站推荐系统

1. 前言 随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴...
  • Rachel715
  • Rachel715
  • 2016-06-22 11:00
  • 2551

刘佳:基于全网内容的新闻客户端推荐系统

  • 2014-12-18 10:45
  • 2.50MB
  • 下载

新闻推荐系统:基于内容的推荐算法(Recommender System:Content-based Recommendation)

因为开发了一个新闻推荐系统的模块,在推荐算法这一块涉及到了基于内容的推荐算法(Content-Based Recommendation),因此用到了朴素贝叶斯来对抓取的新闻进行分类,以达到为用户推荐符合其兴趣的新闻。于是借此机会,基于自己看了网上各种资料后对该分类方法的理解,用尽量清晰明了的语言,结...
  • qq_32690999
  • qq_32690999
  • 2017-08-20 21:02
  • 1113

各大牛逼网站推荐系统

1. 前言 随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴...
  • Yang358766420
  • Yang358766420
  • 2014-07-21 17:05
  • 823

基于主题模型的个性化新闻推荐系统

  • 2014-10-30 19:02
  • 14.36MB
  • 下载

《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)

1:协同过滤算法简介 2:协同过滤算法的核心 3:协同过滤算法的应用方式 4:基于用户的协同过滤算法实现 5:基于物品的协同过滤算法实现 一:协同过滤算法简介     关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分...
  • Gamer_gyt
  • Gamer_gyt
  • 2016-05-30 12:08
  • 24571

在Python中实现你自己的推荐系统【转载】

【转载】现今,推荐系统被用来个性化你在网上的体验,告诉你买什么,去哪里吃,甚至是你应该和谁做朋友。人们口味各异,但通常有迹可循。人们倾向于喜欢那些与他们所喜欢的东西类似的东西,并且他们倾向于与那些亲近的人有相似的口味。推荐系统试图捕捉这些模式,以助于预测你还会喜欢什么东西。
  • lihaiwei1993
  • lihaiwei1993
  • 2016-09-10 14:33
  • 414
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    机器学习微信交流群
    为了方便大家学习与交流,凡人云近日已开通机器学习社群! 分享“凡人机器学习”公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群 在这里你可以得到: 1.各种学术讨论 2.最新的资料分享 3.不定期的征文以及联谊活动! 小助手微信号:meiwznn
    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:816699次
    • 积分:10974
    • 等级:
    • 排名:第1711名
    • 原创:232篇
    • 转载:40篇
    • 译文:0篇
    • 评论:459条
    博客专栏
    统计