这个项目很简单,可作为入门用,我们利用python中的requests库试着爬取一个腾讯新闻网页中的文字内容。如图
首先,打开开发者模式,分析网页。
具体做法,按F12,并用ctrl+f对elements进行搜索,关键字为新闻内容的几个字即可。例如新闻的开头有“随着中国”四个字,我们就在源码中搜索这四个字,搜索结果如图所示:
利用这个方法,我们很轻松就找到了新闻文字内容的位置,通过分析发现其内容都为p标签下的字符串,并且其class="one-p",这可以作为定位该内容的唯一特征。
通过以上的分析,我们确定了定位关键信息的方法,接下来就可以编写python程序了:
# -*- coding:utf-8 -*-