爬虫爬取到的数据一般要进行解析,常用解析数据的方法一般有以下几种:
- 正则表达式解析
- xpath解析
- BeautifulSoup解析
其它不常用的不再介绍
1、正则表达式解析
2、xpath解析
xpath下标从1开始
(1)匹配路径中只有一个/
(表示从根节点开始一级一级往下进行匹配)
首先网页代码是我博客主页代码,如下所示:
接下来是Python代码:
import requests
from lxml import etree
''' 定义函数获取CSDN的博客标题 '''
def get_title():
# 网址及请求头
url = 'https://blog.csdn.net/weixin_42603129'
headers = {
'User-Agent': '"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"'}
# 获取页面信息
response = requests.get(url, headers =