五.xpath解析
xpath是针对xml创建的表达式语言,可以从xml中直接提取到数据,但是我们提取到的网页源代码是html,html是xml的子集,xpath也就可以直接提取html中的内容。
xpath适合对标签的提取,而re模块适合对一堆字符串的提取。
1.安装lxml库
需要安装lxml库
pip install lxml
教程用的html文件
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<span>我爱你</span>
<ul>
<li><a href="http://www.baidu.com">百度</a></li>
<li><a href="http://www.google.com">谷歌</a></li>
<li><a href="http://www.sogou.com">搜狗</a></li