数据解析(XPath、BeautifulSoup、正则表达式、pyquery)

本文部分数据来自菜鸟教程。

在爬虫学习中,获取网页数据后,需要对数据进行。

有4种解析方式分别是:XPath、BeautifulSoup、正则表达式、pyquery

1、XPath

菜鸟教程:XPath 的搜索結果

XPath需要依赖lxml库:   安装方式  pip install  lxml

<?xml version="1.0" encoding="UTF-8"?>
 
<bookstore>
 
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
 
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
 
</bookstore>

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:

表达式描述
nodename选取此节点的所有子节点。
/从根节点选取(取子节点)。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式结果
bookstore选取 bookstore 元素的所有子节点。
/bookstore

选取根元素 bookstore。

注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!

bookstore/book选取属于 bookstore 的子元素的所有 book 元素。
//book选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang选取名为 lang 的所有属性。

 

谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:

路径表达式结果
/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。


选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符描述
*匹配任何元素节点。
@*匹配任何属性节点。
node()匹配任何类型的节点。

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式结果
/bookstore/*选取 bookstore 元素的所有子元素。
//*选取文档中的所有元素。
//title[@*]选取所有带有属性的 title 元素。


选取若干路径

通过在路径表达式中使用"|"运算符,您可以选取若干个路径。

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式结果
//book/title | //book/price选取 book 元素的所有 title 和 price 元素。
//title | //price选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

举个例子:爬取起点小说网月票榜上的书名

 

import requests
from lxml import  etree

url='https://www.qidian.com/rank/yuepiao/'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}
resp=requests.get(url,headers=headers)#发送请求
e=etree.HTML(resp.text)  #类型转换 将str类型转换成class 'lxml.etree._Element'
names=e.xpath('//div[@class="book-mid-info"]/h2/a/text()')
print(names)

 

 2、BeautifulSoup

安装方式   pip install bs4

解析器一般选用第二个

 

举个栗子: 

 

from  bs4 import BeautifulSoup

html='''
    <html>
        <head>
            <title>百度一下</title>
        </head>
        <body>
            <h1 class="info bg" float='left'>百度搜索</h1>
            <a href="http://www.baidu.com"> 百度</a>
            <h2><!--注释的内容--></h2>
        </body>
    </html>

'''

bs=BeautifulSoup(html,'lxml') #调用解析器,创建对象
print(bs.title)
print(bs.h1.attrs)

#获取单个属性
print(bs.h1.get('class'))
print(bs.h1['class'])
print(bs.a['href'])

#获取内容
print('--------',bs.h2.string)  #获取到h2标签中的注释的文本内容
print(bs.h2.text)     #因为h2标签中没有正而八经的文本内容
from  bs4 import  BeautifulSoup

html='''
    <title>百度一下</title>
    <div class="info" float="left">百度搜索</div>
    <div class="info" float="right" id="gb">
        <span>好好学习,天天向上</span>
        <a href="http://www.baidu.com">官网</a>
    </div>
    <span>人生苦短,再来一碗</span>
'''
bs=BeautifulSoup(html,'lxml')
print(bs.title,type(bs.title))
print(bs.find('div',class_='info'),type(bs.find('div',class_='info')))  #获取第一个满足条件的标签
print('--------------------------------------')
print(bs.find_all('div',class_='info'))  #得到的是一个标签的列表
print('--------------------------------------')
for item in bs.find_all('div',class_='info'):
    print(item,type(item))
print('--------------------------------------')
print(bs.find_all('div',attrs={'float':'right'}))

print('===============CSS选择器=======================')
print(bs.select("#gb"))
print('--------------------------------------')
print(bs.select('.info'))
print('--------------------------------------')
print(bs.select('div>span'))
print('--------------------------------------')
print(bs.select('div.info>span'))

for item in bs.select('div.info>span'):
    print(item.text)

 

3、正则表达式

正则表达式 是一个特殊的字符序列,它能帮助用户便捷地检查一个字符串是否与某种模式匹配。 Python的正则模块是re,是Python的内置模块,不需要安装,导入即可。

语法:

序号

元字符

说明

1

.

匹配任意字符

2

^

匹配字符串的开头

3

$

匹配字符的末尾

4

*

匹配前一个元字符0到多次

5

+

匹配前一个元字符1到多次

6

?

匹配前一个元字符01

7

{m}

匹配前一个字符m

8

{m,n}

匹配前一个字符mn

9

{m,n}?

匹配前一个字符mn次,并且取尽可能少的情况

10

\\

对特殊字符进行转义

11

[]

一个字符的集合,可匹配其中任意一个字符

12

|

逻辑表达式,比如ab代表可匹配a或者b

13

(...)

被括起来的表达式作为一个元组。findall()在有组的情况下只显示组的内容

特殊序列:

序号

元字符

说明

1

\A

只在字符串开头进行匹配

2

\b

匹配位于开头或者结尾的空字符串

3

\B

匹配不位于开头或者结尾的空字符串

4

\d

匹配任意十进制数,相当于[0-9]

5

\D

匹配任意非数字字符,相当于[^0-9]

6

\s

匹配任意空白字符,相当于[\t\n\r\f\v]

7

\S

匹配任意非空白字符,相当于[^\t\n\r\f\v]

8

\w

匹配任意数字、字母、下划线,相当于[a-zA-Z0-9_]

9

\W

匹配任意非数字、字母、下划线,相当于[^a-zA-Z0-9_]

10

\Z

只在字符串结尾进行匹配

11

[\u4e00-\u9fa5]

中文

 正则处理函数:

 自行用代码测试一下,加深理解,  代码里的   .group(),加上后方便看。去掉也可以

import  re
s='Istudy study Python3.8 every day'
print('----------------match方法,从起始位置开始匹配------------')
print(re.match('I',s).group())
print(re.match('\w',s).group())
print(re.match('.',s).group())

print('---------------search方法,从任意位置开始匹配,匹配第一个---------------')
print(re.search('study',s).group())
print(re.search('s\w',s).group())

print('---------------findall方法,从任意位置开始匹配,匹配多个-----------------')
print(re.findall('y',s))  #结果为列表
print(re.findall('Python',s))
print(re.findall('P\w+.\d',s))
print(re.findall('P.+\d',s))

print('--------------sub方法的使用,替换功能-------------------------')
print(re.sub('study','like',s))
print(re.sub('s\w+','like',s))

 

4、pyquery

pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好 前提条件: 你对CSS选择器与JQuery有所了解

非Python标准模块,需要安装 安装方式 pip install pyquery 测试方式 Import pyquery

 

 

序号

 提取数据

举例

1

获取当前节点

doc(‘#main’)

2

获取子节点

doc(‘#main’).children()

3

获取父节点

doc(‘#main’).parent()

4

获取兄弟节点

doc(‘#main’).siblings()方法

5

获取属性

doc(‘#main’).attr(‘href’)

6

获取内容

doc(‘#main’).html()    doc(‘#main’).text()

 

from  pyquery import  PyQuery
html='''
    <html>
        <head>
            <title>PyQuery</title>
        </head>
        <body>
            <div id="main">
                <a href="http://www.mashibing.com">马士兵教育</a>
                <h1>欢迎来到马士兵教育</h1>
                我是div中的文本
            </div>
            <h2>Python学习</h2>
        </body>
    </html>
'''
doc=PyQuery(html)
#获取当前节点
print(doc("#main"))

#获取父节点,子节点,兄弟节点
print('-----------父节点----------------')
print(doc("#main").parent())
print('-----------子节点----------------')
print(doc("#main").children())
print('-------------兄弟节点------------------')
print(doc("#main").siblings())

print('------------------获取属性---------------')
print(doc('a').attr('href'))

print('------------获取标签的内容----------------')
print(doc("#main").html())
print('-------------------------')
print(doc("#main").text())

例子:爬取起点小说网月票榜的作者

import  requests
from  pyquery import  PyQuery  as pq

url='https://www.qidian.com/rank/yuepiao/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}
resp=requests.get(url,headers=headers)

doc=pq(resp.text)#使用字符串初始化方式初始化PyQuery对象
authors=doc('p.author a')

authors_list=[]


for index in range(len(authors)):
    if index%2==0:
        authors_list.append(authors[index].text)

print(authors_list)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值