python_爬虫 05 XPath语法和lxml模块

最新推荐文章于 2024-09-06 17:41:57 发布

思想流浪者

最新推荐文章于 2024-09-06 17:41:57 发布

阅读量1.1k

点赞数

分类专栏： python爬虫文章标签： python 爬虫 XPath lxml

本文链接：https://blog.csdn.net/qq_30346413/article/details/117452583

版权

python爬虫专栏收录该内容

26 篇文章 2 订阅

订阅专栏

7、补充：索引、部分属性值、string()

总结：lxml 结合 xpath 注意事项

五、爬取豆瓣网最新上映电影信息

六、使用requests和xpath爬取电影天堂

一、什么是XPath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

二、XPath开发工具

Chrome插件XPath Helper。
Firefox插件Try XPath。

xpath helper官方文档上介绍的使用方法如下：
打开窗口后，按shift键并移动鼠标至你需要查看的区域即可立即在插件窗口中显示其代码查询结果。
1）打开一个新的标签，并导航到你最喜欢的网页。
2）按Ctrl-Shift键-X以打开XPath辅助控制台。
3）按住Shift键鼠标在页面上的元素。查询框会不断更新，以显示鼠标指针下面的元素充分XPath查询。结果框其右侧将显示评价结果的查询。
4）如果需要的话，可以直接在控制台编辑XPath查询。在结果框中将立即反映任何变化。
5）再次按Ctrl-Shift键-X关闭控制台

三、XPath语法

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

1、选取节点

表达式	描述	示例	结果
nodename	选取此节点的所有子节点	bookstore	选取 bookstore 下所有的子节点
/	如果是在最前面，代表从根节点选取。否则选择某个节点下的节点	/bookstore	选取根元素下所有的 bookstore 节点
//	从全局节点中选择节点，随便在哪个位置	//book	从全局节点中找到所有的 book 节点
@	选取带有某个属性的节点	//book[@price]	选择所有拥有 price 属性的 book 节点
.	当前节点	./a	选择当前节点下的a标签

2、谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。
在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	描述
/bookstore/book[1]	选取bookstore下的第一个子元素
/bookstore/book[last()]	选取bookstore下的最后一个book元素。
bookstore/book[position()<3]	选取bookstore下前面两个子元素。
//book[@price]	选取拥有price属性的book元素
//book[@price=10]	选取所有属性price等于10的book元素

3、通配符

*表示通配符。

通配符	描述	示例	结果
*	匹配任意节点	/bookstore/*	选取bookstore下的所有子元素。
@*	匹配节点中的任何属性	//book[@*]	选取所有带有属性的book元素。

4、选取多个路径

通过在路径表达式中使用“|”运算符，可以选取若干个路径。
示例如下：

//bookstore/book | //book/title
# 选取所有bookstore下的book元素 以及 所有book元素下的title元素

5、运算符

例如： //li[@data-index="0" and @data-companyid="142381"]

6、总结

使用方式：
使用 // 获取整个页面当中的元素，然后写标签名，然后写谓词进行提取，比如 //div[@class="abc"]

需要注意的知识点：
1、/ 和 // 的区别：/ 代表只获取直接子节点。// 获取子孙节点。
2、contains:又是某个属性中包含了多个值，那么可以使用 contains 函数。例如： //div[contains(@class, "job_detail")]
3、谓词中的下标是从1 开始的，不是从0开始的。

7、补充：索引、部分属性值、string()

"""
<div id="test_div" class="33370-jiagoushi0">测试id</div>
<div id="test_div1" class="33371-jiagoushi1">测试id1<div>->内部div内容</div></div>
<div id="test_div2" class="33372-jiagoushi2">测试id2</div>
"""
# 使用索引定位元素 :[1]
data = html.xpath("(//h4)[1]/text()")[0]  # 查询全局所有h4 标签中的第一个的text
print(data)

# 元素属性类型：@id 、@name、@type、@class、@tittle
data = html.xpath("//div[@id='test_div']/@id")[0]  # # 通过id 属性查询id=test_div 的标签，获取第一个的id
print(data)

# 部分属性值匹配

# starts-with
data = html.xpath("//div[starts-with(@class, '33370')]/text()")  # 查找class 开头是33370 的div 里面所有的文本
print("starts-with: {}".format(data))  # start-with: ['测试id']

# contains
data = html.xpath("//div[contains(@class, 'shi0')]/text()")  # 查找class 包含shi0 的div 里面所有的文本
print("contains: {}".format(data))  # contains: ['测试id']

# string()
data = html.xpath("string(//div[starts-with(@class, '33371')])")
print(data)  # 测试id

四、lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：lxml - Processing XML and HTML with Python

需要安装C语言库，可使用 pip 安装：pip install lxml

1、基本使用

我们可以利用他来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，他会自动的进行补全。示例代码如下：

from lxml import etree

text = """
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
     </ul>
 </div>
"""
# 利用 etree.HTML 将字符串解析为 HTML 文档
htmlElement = etree.HTML(text)
# etree.tostring(htmlElement, encoding="utf-8") 将字符串序列化为HTML 文档
print(etree.tostring(htmlElement, encoding="utf-8").decode("utf-8"))

结果：

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
     </ul>
 </div>
</body></html>

可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签，还添加了body，html标签

2、从文件中读取html代码

除了直接使用字符串进行解析，lxml还支持从文件中读取内容。我们新建一个lagou.html文件：

<ul class="item_con_list" style="display: block;">
    <li class="con_list_item first_row default_list xh-highlight" data-index="0" data-positionid="7366336" data-salary="10k-18k" data-company="派客朴食" data-positionname="python开发工程师" data-companyid="142381" data-hrid="5683095" data-tpladword="0">
        <span class="top_icon direct_recruitment"></span>
        <span class="top_icon school_recruitment"></span>
        <div class="list_item_top">
            <div class="position">
                <div class="p_top">
                    <a class="position_link" href="https://www.lagou.com/jobs/7366336.html?show=80b2bf56e1c5434a9fd02cf7c69645c0" target="_blank" data-index="0" data-lg-tj-id="8E00" data-lg-tj-no="
                    0101
                " data-lg-tj-cid="7366336" data-lg-tj-abt="dm-csearch-personalPositionLayeredStrategyNew|0" data-lg-webtj-_show_id="80b2bf56e1c5434a9fd02cf7c69645c0" data-lg-webtj-_search_type="csearch" data-lg-webtj-_content_type="jd">
                        <h3>python开发工程师</h3>
                                        <span class="add">[<em>海珠区</em>]</span>
                    </a>
                    <span class="format-time">18:51发布</span>
                            <input type="hidden" class="hr_portrait" value="i/image3/M00/12/8A/CgpOIFpu3MCADExwAAGYED2CFns237.jpg">
                            <input type="hidden" class="hr_name" value="packer">
                            <input type="hidden" class="hr_position" value="人力总监">
                            <input type="hidden" class="target_hr" value="5683095">
                            <input type="hidden" class="target_position" value="7366336">
                            <div class="chat_me" data-lg-tj-id="1WI0" data-lg-tj-no="0101" data-lg-tj-cid="142381" data-lg-tj-track-code="search_code" data-lg-tj-track-type="1"></div>
                </div>
            </div>
        </div>
    </li>
    </ul>

然后利用etree.parse()方法来读取文件。示例代码如下：

    parser = etree.HTMLParser(encoding="utf-8")  # 获取html 解析器
    htmlElement = etree.parse("lagou.html", parser=parser)  # 默认是xml 解析器
    print(etree.tostring(htmlElement, encoding="utf-8").decode("utf-8"))

总结：

1、解析html 字符串：使用 lxml.etree.HTML 进行解析。示例代码：

htmlElement = etree.HTML(text)
print(etree.tostring(htmlElement, encoding="utf-8").decode("utf-8"))

2、解析hmtl 文件，使用 lxml.etree.parse 进行解析，示例代码如下：

htmlElement = etree.parse("lagou.html")  # 默认是xml 解析器
print(etree.tostring(htmlElement, encoding="utf-8").decode("utf-8"))

这个函数默认使用的是 xml 解析器，所以如果遇到不规范的html 代码就会解析错误，这时候就要自己创建 html解析器

parser = etree.HTMLParser(encoding="utf-8")  # 获取html 解析器
htmlElement = etree.parse("lagou.html", parser=parser)  # 默认是xml 解析器
print(etree.tostring(htmlElement, encoding="utf-8").decode("utf-8"))

3、在lxml中使用XPath语法

获取所有li标签：

 from lxml import etree

 html = etree.parse('hello.html')
 print type(html)  # 显示etree.parse() 返回类型

 result = html.xpath('//li')
 print(result)  # 打印<li>标签的元素集合

获取所有li元素下的所有class属性的值：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/@class')
 print(result)

获取li标签下href为www.baidu.com的a标签：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/a[@href="www.baidu.com"]')
 print(result)

获取li标签下所有span标签：

 from lxml import etree

 html = etree.parse('hello.html')

 #result = html.xpath('//li/span')
 #注意这么写是不对的：
 #因为 / 是用来获取子元素的，而 <span> 并不是 <li> 的子元素，所以，要用双斜杠

 result = html.xpath('//li//span')
 print(result)

获取li标签下的a标签里的所有class：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/a//@class')
 print(result)

获取最后一个li的a的href属性对应的值：

 from lxml import etree

 html = etree.parse('hello.html')

 result = html.xpath('//li[last()]/a/@href')
 # 谓语 [last()] 可以找到最后一个元素
 print(result)

获取倒数第二个li元素的内容：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li[last()-1]')

 # text 方法可以获取元素内容
 print(result[0].text)

获取倒数第二个li元素的内容的第二种方式：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li[last()-1]/text()')
 print(result)

示例测试例子

html 代码：test.html

python 代码：

1、获取所有div 并且属性class='recruit-list' 的 标签
2、获取第 2 个div 标签
3、获取所有class 等于 recruit-title 的标签
4、获取所有a 标签的href 属性
5、获取所有的职位信息（纯文本）

from lxml import etree

parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse("tencent.html", parser=parser)
print(etree.tostring(html, encoding="utf-8").decode("utf-8"))


# 1、获取所有div 并且属性class='recruit-list' 的 标签
# xpath 返回的是一个列表
divs = html.xpath("//div[@class='recruit-list']")
for div in divs:
    print(etree.tostring(div, encoding="utf-8").decode("utf-8"))

# 2、获取第 2 个div 标签
div_2 = html.xpath("//div[@class='recruit-list' and position() = 2]")[0]
print(etree.tostring(div_2, encoding="utf-8").decode("utf-8"))

# 3、获取所有class 等于 recruit-title 的标签
h4s = html.xpath("//h4[@class='recruit-title']")
for h4 in h4s:
    print(etree.tostring(h4, encoding="utf-8").decode("utf-8"))

# 4、获取所有a 标签的href 属性
hrefs = html.xpath("//a[@href]")
for href in hrefs:
    print(etree.tostring(href, encoding="utf-8").decode("utf-8"))

# 5、获取所有的职位信息（纯文本）
divs = html.xpath("//div[@class='recruit-list']")
positions = []
for div in divs:
    title = html.xpath("//div[@class='recruit-list']//h4/text()")[0]
    address = html.xpath("//div[@class='recruit-list']/a/p[position()=1]/span[position()=2]")[0]
    data = html.xpath("//div[@class='recruit-list']/a/p[position()=1]/span[position()=4]")[0]
    detail = html.xpath("//div[@class='recruit-list']/a/p[position()=2]/text()")[0]
    position = {
        "title": title,
        "address": address,
        "data": data,
        "detail": detail
    }
    positions.append(position)
print(positions)

总结：lxml 结合 xpath 注意事项

1、使用 xpath 语法，应该使用 Element.xpath 方法来执行 xpath 的选择。示例代码如下：
    divs = html.xpath("//div[@class='recruit-list']")
    xpath 函数返回的永远是一个列表
    
2、获取某个标签的属性：
    hrefs = html.xpath("//a[@href]")
    # 获得 a 标签的 href 属性对应的值
    
3、获取文本，是通过 xpath 中的 text() 函数， 示例代码如下：
    address = tr.xpath("./td[4]/text()")[0]

4、如果想要某个标签下，再执行 xpath 函数， 获得这个标签下的子孙元素，
    应该在斜杆之前加一个点，代表是在当前元素下获取。示例代码如下：
    address = tr.xpath("./td[4]/text()")[0]

五、爬取豆瓣网最新上映电影信息

爬取当前页面的 body 标签内容：html

import requests
from lxml import etree

# 1、将目标网站上的页面抓取下来
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
    "Referer": "https://movie.douban.com/cinema/nowplaying/guangzhou/"
}
url = "https://movie.douban.com/cinema/nowplaying/guangzhou/"
resp = requests.get(url=url, headers=headers)
text = resp.content
# 解码方式根据html 设置的编码：<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
# print(text.decode("utf-8"))

# 2、将抓取下来的数据根据一定的规则进行提取
html = etree.HTML(text)
ul = html.xpath("//ul[@class='lists']")[0]  # 有两个：1.正在上映，2.即将上映
lis = ul.xpath("./li")
movies = []
for li in lis:
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    duration = li.xpath("@data-duration")[0]
    address = li.xpath("@data-region")[0]
    director = li.xpath("@data-director")[0]
    actors = li.xpath("@data-actors")[0]
    img_src = li.xpath(".//img/@src")[0]
    movie = {
        "title": title,  # 电影名
        "score": score,  # 评分
        "duration": duration,  # 时长
        "address": address,  # 国家
        "director": director,  # 导演
        "actors": actors,  # 主演
        "img_scr": img_src  # 图片
    }
    movies.append(movie)
print(movies)

六、使用requests和xpath爬取电影天堂

爬取当前页面的 body 标签内容：html

"""
需求：爬取 电影天堂 最新电影信息
链接：https://dytt8.net/html/gndy/dyzz/index.html
网页手动保存到当前目录：04_dytt.html
"""

import requests
from lxml import etree

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
    "Referer": "https://dytt8.net/html/gndy/dyzz/index.html"
}
BASE_URL = "https://dytt8.net"

def get_detail_urls(url):
    """
    根据url获取电影的详情链接
    :param url: 请求的url
    :return: 电影详情信息的url 列表
    """
    resp = requests.get(url=url, headers=HEADERS)
    text = resp.text
    html = etree.HTML(text)
    # 用最快速的方法找到电影详情的链接，通过 table 的 class=tbspan 快速定位
    detail_urls = html.xpath("//table[@class='tbspan']//a/@href")
    detail_urls = list(map(lambda url: BASE_URL + url, detail_urls))  # 将map对象转换成list
    return detail_urls

def get_detail_page(url):
    movie = {}  # 保存电影信息
    resp = requests.get(url=url, headers=HEADERS)
    try:
        text = resp.content.decode("gb2312")  # 有无法解析的字符
    except UnicodeDecodeError as e:
        print("出现无法解析的符号,直接跳过")
        return None
    # text = resp.text
    html = etree.HTML(text)
    # 查询电影名称
    title = html.xpath("//div[@class='title_all']//font[@color='#07519a']/text()")[0]
    movie["title"] = title

    # 其他信息在 id="Zoom" 的div里面
    zoomEle = html.xpath("//div[@id='Zoom']")[0]
    imgs = zoomEle.xpath("//img/@src")
    cover = imgs[0]
    screenshot = imgs[1]
    movie["cover"] = cover  # 电影图片链接
    movie["screenshot"] = screenshot

    def parse_info(rule, info):
        return info.replace(rule, "").strip()

    infos = zoomEle.xpath(".//text()")
    for index,info in enumerate(infos):
        if info.startswith("◎片　　名"):
            name = parse_info("◎片　　名", info)
            movie["name"] = name
        elif info.startswith("◎年　　代"):
            year = parse_info("◎年　　代", info)
            movie["year"] = year
        elif info.startswith("◎产　　地"):
            address = parse_info("◎产　　地", info)
            movie["address"] = address
        elif info.startswith("◎类　　别"):
            category = parse_info("◎类　　别", info)
            movie["category"] = category
        elif info.startswith("◎语　　言"):
            language = parse_info("◎语　　言", info)
            movie["language"] = language
        elif info.startswith("◎豆瓣评分"):
            rating = parse_info("◎豆瓣评分", info)
            movie["rating"] = rating
        elif info.startswith("◎片　　长"):
            duration = parse_info("◎片　　长", info)
            movie["duration"] = duration
        elif info.startswith("◎导　　演"):
            movie["director"] = parse_info("◎导　　演", info)
        elif info.startswith("◎主　　演"):
            actor = parse_info("◎主　　演", info)
            actors = [actor]
            for i in range(index+1, len(infos)):
                if infos[i].startswith("◎标　　签"):
                    break
                actors.append(infos[i].strip())
            movie["actors"] = actors
        elif info.startswith("◎标　　签"):
            movie["director"] = parse_info("◎标　　签", info)
        elif info.startswith("◎简　　介"):
            profile = ""
            for i in range(index+1, len(infos)):
                if infos[i].startswith("磁力链"):break
                profile += infos[i].strip()
            movie['profile'] = profile

    link = zoomEle.xpath(".//a/@href")[0]
    movie['link'] = link
    return movie


def spider():
    movies = []
    url = "https://dytt8.net/html/gndy/dyzz/list_23_{}.html"
    # 获取7页的电影信息
    for i in range(1, 8):  # 循环获取所有电影详情链接
        url = url.format(i)
        detail_urls = get_detail_urls(url)
        print(detail_urls)
        for detail_url in detail_urls:  # 循环获取电影信息
            movie = get_detail_page(detail_url)
            movies.append(movie)
            print(movie)

    # # 先用第一页测试
    # url = "https://dytt8.net/html/gndy/dyzz/list_23_1.html"
    # detail_urls = get_detail_urls(url)
    # for detail_url in detail_urls:
    #     movie = get_detail_page(detail_url)
    #     movies.append(movie)
    #     # print(movie)
    #     break

if __name__ == '__main__':
    spider()