1、requests库是一个用于http请求的第三方模块,可以方便的对网页进行爬取,通过pip install requests命令进行安装,安装完成后,运行import requests命令,如果没提示错误,那说明已经安装成功。
2、安装beautifulsoup4,它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找、修改文档的方式。进入命令行运行pip install beautifulsoup4开始安装,完成后如图2.1
3、复制下面的代码到编辑器,如图3.1,做相应的修改后运行,看看效果。
#导入 Requests 模块
import requests
#获取目标抓取网页,返回r
r = requests.get('任意网址')
#r.text获取文本信息,通过r.content获取图片文件
print(r.text)
#获取网页编码
print(r.encoding)
#获取响应状态码
print(r.status_code)
4、在URLs中传递参数,比如在百度搜索结果时,我们wd参数(搜索词)和rn参数(搜素结果数量)。复制下面的代码到编辑器,如图4.1,对网址做相应的修改
#导入 Requests 模块
import requests
payload = {'wd': '三门峡', 'rn': '100'}
#获取目标抓取网页,返回r
r = requests.get("改为百度网址", params=payload)
#输出url
print(r.url)
5、运行后控制台输出带参数的url地址,如图5.1