之前代码里分享了获取网页正文,关键字提取,中文摘要等。前些天有空弄了一个新闻读取的网页,把分享的代码作个整合。功能如下:
1.google把最新的新闻或博客等内容自动发送到邮箱
2.用python读取邮箱得到新闻的链接
3.访问链接,自动读取新闻的内容,自动去掉广告等等其它信息,得到最简洁的信息。
4.用yaha分词库生成摘要,提取关键字
5.网站页面:每日新闻
目前新闻是与电影等关键字相关的,后续有时间会在GAE上部署一个与互联网相关的关键字的新闻站。
为了节约时间,网站页面非常简陋。新闻至少能看到了,哈哈。个人觉得还不错。