python 检测exe是否未响应_一个不成熟的想法:用Python实现爬取头条文章

最近经常在头条上搜索一些技术资料,最后发现搜到的大部分资料都集中在头条、CSDN、脚本之家和博客园等几个网站上。

好吧,刚开头,我就想吐槽一下某度搜索引擎。以前基本上都是用某度搜索,可现在呢,再看某度搜索,返回来的搜索结果前面几项全是广告,而且搜索技术类的文章,返回的结果往往不尽如人意,好多内容都不是需要的。现在对于某度搜索,只是偶尔用一下,技术类的内容已经不在上面搜索了。

书归正传,对于搜索到的技术资料,一般会添加到收藏,后面需要的时候再来收藏中查看。这样偶尔会遇到个问题,就是等回头再来看的时候,发现原文已被删除,查看不了了。对于需要的文章,只能复制正文保存到本地来收藏比较靠谱一点,这样操作对于单篇文章来说还可以,如果一次要保存的文章较多的话,就比较烦了。因此萌生了一个想法,使用Python来实现爬取文章并保存到本地。

头条、CSDN、脚本之家和博客园等几个网站,上面的技术类内容都还不错,准备先从头条开始,用Python实现爬取头条文章。

5915d49f93e155b6b7368f8b24b553c0.png

写到这里突然想到,这篇文章打算在头条发的,这样会不会不太好,好难的感觉有木有。。。。。。

1195d3f1ec0c2384db5f59c45454a0a9.png

初步功能设想:

当看到某个文章,复制一下网址,提供给Python代码,若想要保存多个文章,则将各个网址都提供给Python代码,然后一起来下载。

首先要有个可交换界面,之前写的Python代码都没写界面,就使用性来说,还是界面交互用起来方便。界面主要可实现的功能有网址输入,能添加多个网址;选择保存路径;下载。

而且希望每次运行不需要打开PyCharm,即将py文件转成Windows中可执行的exe文件,每次使用就只要点击运行exe文件即可。

Python实现初步设想:

1) 定义url_list列表,存放要下载的url;

2) 请求url,返回响应内容;

3) 提取响应内容中的正文;

这里提取的内容要包含html的标签,因为只提取文本或图片的话,最后保存到本地中的文件,其排版都会与网站中的排版不同,影响观看感。

4) 将提取到的正文内容保存成本地html文件;

5) 将html文件转成pdf文件,可实现选择存储地址。

Python实现进一步设想:

爬取头条文章成功后,后面陆续要爬取CSDN、博客园等网站的文章,这样在爬取之前,可先根据网址url判断是属性哪个网站,根据不同的网站选择不同网站的爬取规则来爬取,统一在一个程序中来实现。

往往,理想是丰满的,而现实是骨感的。作为一个技术小白,又能有什么办法呢,只能按照自己想要的一步步去攀爬咯。

要做一个有梦想的小白,万一梦想实现了呢。很喜欢威尔·史密斯的一个电影,《当幸福来敲门》,在这里推荐给大家。

20c1002790d234a654ca1cf959f38aa4.png

最后做了一个投票,希望大家多参与,看看大家对这种功能是否和我一样有需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值