python爬虫实战(三)——猪八戒网(xpath)

最新推荐文章于 2024-12-21 16:45:01 发布

WFForstar

最新推荐文章于 2024-12-21 16:45:01 发布

阅读量1.5k

点赞数 1

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/skyllerone/article/details/122470951

版权

本文介绍使用XPath进行网页数据抓取的方法，重点讲解如何利用Python的lxml库解析HTML文档，并通过实例演示了提取服务商名称、价格和服务的具体操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 . 前言

xpath是实际项目中应用最多的方法，相比于re和bs4来说。
所以xpath学好很重要

2 . 注意点

需要下载lxml库，不然会找不到etree的API
python基础: strip()
在字符串的首末位置去除指定的字符

str = "123abcrunoob321"
print (str.strip( '12' ))  # 字符序列为 12

3abcrunoob3

python基础： join()
在列表各个元素之间用特定的符号串起来

list1 = ['1','2','3','4'] 
s = "-"
s = s.join(list1) 
print(s)

1-2-3-4 # 输出

最后一个返回的是空列表，直接用判断语句跳过

3 . 代码

# xpath是在XML文档中搜索内容的一门语言
# html是XML的一个子集
# 拿页面源代码
# 提取和解析数据
import requests
from lxml import etree

url = "https://taizhou.zbj.com/search/f/?kw=saas"
res = requests.get(url)
#print(res.text)]
# 解析
html = etree.HTML(res.text)
# 拿到每一个服务商的div
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div")

for div in divs: # 每一个服务商信息
    company_name = div.xpath('./div/div[1]/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    price = div.xpath('./div/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    service = div.xpath('./div/div/div/a[2]/div[2]/div[2]/p/text()')
    if price == []:
        continue
    #print(company_name)
    for prices in price:
        print(prices.strip("¥"))
    #print(service)
    #print(divs)