利用网络爬虫获取简单信息的基本步骤是:提取网页源码——>筛选内容——>保存内容
一、提取网页源码
取网页源码方法很多,常用的库有:urllib库,requests库等。。。 具体的例程可访问我的上篇文件:
二、筛选内容
在我的上篇文章里使用的筛选的方法是通过正则表达式完成,但正则表达式编写过程复杂,而且容易出错。在此篇文章中我向大家替换的方法,主要是应用库来代替正则表达式。
①使用 XPath
②使用 Beautiful Soup
③使用 pyquery
这三种库具体的介绍和使用教程可阅读《Python 3网络爬虫开发实战 ,崔庆才著》(文末附书本下载链接)。我以Beautiful Soup库为例,实战爬取网页内容。
目标:爬取网页简书中文章小标题和作者
环境:python3.65 pycharm软件
思路:提取网页的源码—>筛选源码—>输出结果(保持文件)
首先我们先来看看简书网页的源码: