本文使用 Zhihu On VSCode 创作并发布
20200612110411
display: false date: 2020-06-11 title: 用Python提取新闻联播摘要和关键字 categories: [Python] tags: [摘要,CCTV,jieba,jiagu] draft: false
转载请注明微*信公众号:结丹记事本儿,关注有惊喜哦!
对一个业余投资爱好者来说,看新闻联播可比什么K线布林小道要有意义的多,传说会看新闻联播能少走十年弯路,我是深信不疑啊。
但我们不愿意蹲点看视频,还是文字报道读起来快,如果能有个摘要那就更好了,要是能有关键字提取,还能回顾一段时间的关键字,那岂不是时间轴都有了,啧啧,完美掌握国家政策趋势。
内容
由于是给hugo静态网站添加内容,按照hugo模板生成一个文件即可。
文件内容主要有两部分组成
- 今日关键字:由全天报道的所有内容自动生成,选取今日最佳关键字。另外针对投资领域,我们把指数名称、板块和行业等也做了关键字整理,如果发现这些关键字,也做高亮提示
- 新闻摘要:每篇报道的内容文字可能比较多,我们提取最关键的两句
新闻源采用tushare的新闻联播接口。
中文的分词和摘要采用jiagu。
运行环境
Github全家桶的Action功能(真香啊),可以完整打开一个docker进程。
- 定时运行Python脚本拉取新闻数据
- Hugo生成静态文件
- 提交repo