day 6-xpath数据解析学习总结

最新推荐文章于 2024-01-29 18:20:21 发布

‭495

最新推荐文章于 2024-01-29 18:20:21 发布

阅读量198

点赞数

文章标签：学习 python 爬虫

本文链接：https://blog.csdn.net/qq_56490673/article/details/125508499

版权

day 6-xpath数据解析

1.爬商品详情页数据

import requests
from bs4 import BeautifulSoup
import time, csv
from selenium.webdriver import Chrome, ChromeOptions
from re import fullmatch

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

# 获取商品列表中商品的地址
def get_one_page(page, word='电脑'):
    """
    获取一页商品的详情的地址
    :param page: 页数
    :param word: 商品名称
    :return: 一页所有商品的详情地址
    """
    # 获取网页数据
    url = fr'https://search.jd.com/Search?keyword={word}&wq={word}&pvid=6a665414b72a4b43be6f7e15ec7680dd&page={page}&s={page*30+1}&click=0'
    response = requests.get(url, headers=headers)
    # 解析数据，拿到每个商品的详情地址
    soup = BeautifulSoup(response.text, 'lxml')
    goods_li = soup.select('#J_goodsList>ul>li')
    all_data = []
    for li in goods_li:
        goods_url = 'https:'+li.select_one('.p-name>a').attrs['href']
        # print(goods_url)
        all_data.append(goods_url)
    return all_data



# 通过selenium获取一个商品的详细信息
options = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
b = Chrome(options=options)
b.implicitly_wait(3)


def get_goods_details(goods_url):
    """获取商品详情数据"""
    # 1. 打开详情页
    b.get(goods_url)
    # 2.滚动到商品评价按钮对应的位置
    for _ in range(3):
        b.execute_script('window.scrollBy(0, 500)')
        time.sleep(1)

    # 3.点击商品评价按钮
    b.find_element_by_css_selector('#detail>div>ul>li:nth-child(5)').click()
    # 4. 等2秒
    time.sleep(2)
    # 5. 获取网页源代码做解析
    soup = BeautifulSoup(b.page_source, 'lxml')

    # 1）获取商品信息
    info_lis = soup.select('.parameter2>li')
    goods_data = {}
    for li in info_lis:
        text = li.text              # type: str
        key, value = text.split('：')
        goods_data[key] = value

    # 2）获取评论信息
    comment_as = soup.select('.filter-list>li>a')
    comment_data = {}
    for a in comment_as:
        text = a.text     # type: str
        print(text)
        result = fullmatch(r'(.+)\((.*)\)', text)
        goods_data[result.group(1)] = result.group(2)

    # goods_data['comment'] = comment_data

    writer.writerow(list(goods_data.values()))
    print('------------------------------------保存成功-----------------------------------')


if __name__ == '__main__':
    f = open('files/电脑商品信息.csv', 'a', encoding='utf-8', newline='')
    writer = csv.writer(f)

    for page in range(1, 6):
        goods_url_list = get_one_page(page)

        for i in goods_url_list:
            get_goods_details(i)
        time.sleep(1)

2.xpath语法

1.什么是Xpath(xml path 语言)

专门用来解析xml数据

不同的编程语言的程序如果想要进行数据交流，数据传输之前必须转换成通用的数据格式(常用的有两种：json、xml)

Xpath解析数据的原理：通过提供你需要的标签在整个网页(xml)中的路径，来找到对应的标签，进一步获取标签内容或者标签属性。

python基于xpath做数据解析的工具：lxml第三方库

2.xml数据

一种通用的数据格式

xml数据是以标签(元素)为单位，通过标签内容或者标签属性来提供数据。

xml语法：<标签名属性名1=属性值1 属性名2=属性值2 …>标签内容</标签名>

案例：用json和xml来保存一个订单数据
json版本：
{
    "id": "oder028398923",
    "create_time": "2022-6-26 22:34:56",
    "pay_time": "2022-6-26 22:36:02",
    "goods_list":[
        {"goods_id": "9234233", "price": 123.00, "count": 2, "name": "XXX防晒霜"},
        {"goods_id": "7281911", "price": 32.00, "count": 1, "name": "拖鞋"}
    ]
}

<order id="oder028398923">
    <create_time>2022-6-26 22:34:56</create_time>
    <pay_time>2022-6-26 22:36:02</pay_time>
    <goods_list>
        <goods goods_id="9234233">
            <price>123.00</price>
            <count>2</count>
            <name>XXX防晒霜</name>
        </goods>
            
        <goods goods_id="7281911">
            <price>32.00</price>
            <count>1</count>
            <name>拖鞋</name>
        </goods>
    </goods_list>
</order>

3.xpath常用术语

树: 树结构(一个网页源代码，一个xml数据本质就是一个树结构)

节点: 本质就是标签

根节点: 最外层的哪个标签

节点内容: 双标签标签内容

节点属性：标签属性

4. xpath语法

1)基于html数据或xml数据创建html或者xml对应的树并且获取根节点

etree.HTML(网页源代码)、etree.XML(xml数据)

f = open('files/超市.xml', encoding='utf-8')
root = etree.XML(f.read())
f.close()

2)基于节点通过路径获取标签

节点对象.xpath(路径) - 根据路径获取对应的标签，返回值是一个列表，列表中的元素是对应的标签对象

路径写法：

1.绝对路径:

/路径（路径必须从根节点开始往后写）

2.相对路径：

./路径 (.表示当前节点; 谁去点的xpath，当前节点就是谁)

…/路径 (…表示当前节点的上层节点)

注意：如果路径是以 ‘./’ 开始的，‘./’ 可以省略

3.任意路径：

//路径

注意：绝对路径和任意路径，在写路径和获取标签的时候跟xpath前面是哪个标签没有任何关系

# ================绝对路径=============
result = root.xpath('/supermarket/name')
print(result)

result = root.xpath('/supermarket/staffs/staff')
print(result)

# 练习：通过写绝对路径，获取所有商品的商品名对应的标签
result = root.xpath('/supermarket/all_goods/goods/name')
print(result)

# ==============相对路径================
all_goods = root.xpath('./all_goods')[0]

# result = all_goods.xpath('/supermarket/all_goods/goods/name')
# print(result)
result = all_goods.xpath('./goods/name')
print(result)

# ============任意路径==============
result = root.xpath('//name')
print(result)

result = all_goods.xpath('//name')
print(result)

3.xpath语法2

from lxml import etree

root = etree.XML(open('files/超市.xml', encoding='utf-8').read())

1.获取标签内容和标签属性

1)获取标签内容：

获取标签的路径/text()

result = root.xpath('//goods/name/text()')
print(result)       # ['泡面', '火腿肠', '矿泉水', '巧克力']

2)获取标签属性值：

获取标签的路径/@属性名

result = root.xpath('//staff/@position')
print(result)

2. 谓语(条件)

谓语的写法：[谓语]

1) 位置相关谓语

[N] - 第N个标签(N是任意正整数)

[last()] - 获取最后一个标签

[last()-1] - 获取倒数第2个标签。这儿的1可以是其他任意的整数

[position()>N]、 [position()>=N]、[position()<N]、[position()<=N]

result = root.xpath('//goods[2]/name/text()')
print(result)       # ['火腿肠']

result = root.xpath('//goods[last()]/name/text()')
print(result)       # ['巧克力']

result = root.xpath('//goods[last()-1]/name/text()')
print(result)       # ['矿泉水']

result = root.xpath('//goods[position()<=3]/name/text()')
print(result)       # ['泡面', '火腿肠', '矿泉水']

2)属性相关谓语

[@属性名=值] - 获取指定属性为指定值的标签

[@属性名] - 获取拥有指定属性的标签

result = root.xpath('//goods[@class="c3"]/name/text()')
print(result)

result = root.xpath('//goods[@id="d1"]/name/text()')
print(result)


result = root.xpath('//goods[@class]/name/text()')
print(result)

*3)子标签内容相关谓语

[子标签名>值]、[子标签名>=值]、[子标签名<值]、[子标签名<=值]、[子标签名=值]

result = root.xpath('//goods[pirce=1.5]/name/text()')
print(result)

3. 分支 - |

路径1|路径2 - 先通过路径1获取标签，如果获取不到再通过路径2获取(获取的是多个路径中所有有效路径的结果)

result = root.xpath('//goods/name1/text()|//goods/name2/text()')
print(result)       # []

result = root.xpath('//goods/name2/text()|//goods/name/text()')
print(result)       # ['泡面', '火腿肠', '矿泉水', '巧克力']

result = root.xpath('//goods/name/text()|//staffs/staff/text()')
print(result)      # ['张三', '小明', '小红', '小花', '泡面', '火腿肠', '矿泉水', '巧克力']

4.通配符 - *

xpath中可以用*来代表任意标签或者任意属性

result = root.xpath('//goods/name/text()')
print(result)

result = root.xpath('//goods/*/text()')
print(result)       # ['泡面', '3.5', '120', '火腿肠', '1.5', '305', '矿泉水', '1.5', '1200', '巧克力', '11.5', '50']


result = root.xpath('//*[@class="c2"]')
print(result)

# 所有第一个员工的所有属性值
result = root.xpath('//staff[1]/@*')
print(result)

# 获取属性值为c2的所有标签
result = root.xpath('//*[@*="c2"]')
print(result)

# 获取id值为'd1'的标签
result = root.xpath('//*[@id="d1"]')