【介绍】
requests:requests 是用Python语言编写,基于自带库urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便
lxml:XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。对应插件名为lxml
【安装】
在命令行分别执行如下命令
python -m pip install --upgrade pip
pip install requests
pip install lxml
【体验】
1、使用requests可以执行多种网页访问命令,如get、put、post、head等,详细可参考https://www.cnblogs.com/mrchige/p/6409444.html
2、体验使用python自带urllib+正则表达式提取内容;体验使用第三放库 lxml+xpath来提取内容。
#!/usr/bin/python3
#-*- coding: utf-8 -*-
import re #python自带插件
import requests #第三方插件
from lxml import etree #第三方插件 使用xpath要用
#爬取阿里文学的页面
ret = requests.get("http://www.aliwx.com.cn