XML格式爬取所需内容

最新推荐文章于 2024-06-29 12:06:41 发布

runs_after_the_wind

最新推荐文章于 2024-06-29 12:06:41 发布

阅读量500

点赞数

本文链接：https://blog.csdn.net/runs_after_the_wind/article/details/82562418

版权

通过对HTML格式转换成XML的格式后，再对转换成XML格式后的内容进行xpath匹配处理，得到想要爬取的内容！

import requests
from lxml import etree

# 1.获取html页面
url = 'http://www.langlang2017.com/'
response = requests.get(url)
content = response.content.decode('u1tf-8')

# 2.把页面转换成树状结构
tree = etree.HTML(content)

# 方法一
div_list = tree.xpath('//div/text()')
print(div_list[-6])
# 方法二
tel = tree.xpath('//div[@class="dianhua"]/text()')
print(tel[0])

addr = tree.xpath('//div[@class="dizhi"]/text()')
print(addr[0])

# info = tree.xpath('//li/img/@src')
# print(info)
li_list = tree.xpath('//div[@class="banner_box"]/ul/li')
for li in li_list:
    # 获取图片和链接
    src = li.xpath('./img/@src')[0]
    alt = li.xpath('./img/@alt')[0]
    print(src, alt)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

runs_after_the_wind

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
XML格式爬取所需内容

通过对HTML格式转换成XML的格式后，再对转换成XML格式后的内容进行xpath匹配处理，得到想要爬取的内容！import requestsfrom lxml import etree# 1.获取html页面url = 'http://www.langlang2017.com/'response = requests.get(url)content = response.co...
复制链接

扫一扫