python爬虫实战(三)——猪八戒网(xpath)

本文介绍使用XPath进行网页数据抓取的方法,重点讲解如何利用Python的lxml库解析HTML文档,并通过实例演示了提取服务商名称、价格和服务的具体操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 . 前言

xpath是实际项目中应用最多的方法,相比于re和bs4来说。
所以xpath学好很重要

2 . 注意点

  1. 需要下载lxml库,不然会找不到etree的API
  2. python基础: strip()
    在字符串的首末位置去除指定的字符
str = "123abcrunoob321"
print (str.strip( '12' ))  # 字符序列为 12
3abcrunoob3
  1. python基础: join()
    在列表各个元素之间用特定的符号串起来
list1 = ['1','2','3','4'] 
s = "-"
s = s.join(list1) 
print(s) 
1-2-3-4 # 输出
  1. 最后一个返回的是空列表,直接用判断语句跳过

3 . 代码

# xpath是在XML文档中搜索内容的一门语言
# html是XML的一个子集
# 拿页面源代码
# 提取和解析数据
import requests
from lxml import etree

url = "https://taizhou.zbj.com/search/f/?kw=saas"
res = requests.get(url)
#print(res.text)]
# 解析
html = etree.HTML(res.text)
# 拿到每一个服务商的div
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div")

for div in divs: # 每一个服务商信息
    company_name = div.xpath('./div/div[1]/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    price = div.xpath('./div/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    service = div.xpath('./div/div/div/a[2]/div[2]/div[2]/p/text()')
    if price == []:
        continue
    #print(company_name)
    for prices in price:
        print(prices.strip("¥"))
    #print(service)
    #print(divs)
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WFForstar

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值