安装lxml库
pip install lxml
选取要爬取的网址并进行网页源码爬取*(豆瓣电影top250为例)*
from lxml.html import etree #导入lxml包
import requests #导入requests库
url = 'https://movie.douban.com/top250' #确定爬取的网址
headers = {'User-Agent':'自己电脑数值'} #用于模拟浏览器访问网址
response = requests.get(url=url,headers=headers).text #获取网页源码
tree = etree.HTML(response) 构造xpath对象
title = tree.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()') #xpath路径及获取路径元素的文本
print(title) #打印获取的文本
Xpath用法
豆瓣top250网页部分源码
xpth表达式使用方法
符号 | 含义 |
---|---|
.// | 表示可以从任何一级节点开始寻找 |
/ | 表示下一层级 |
[] | 标签符属性值(通常用数字或@+属性名=属性值) |
取链接和其他字符的方法
@href:取a标签链接的方法
text():取标签内字符串的方法
xpth示例
'.//span[@class="total"]/div/text()' #含义为任意层级下span标签class属性,属性值为total的标签下所属div标签的字符串