python爬虫XPath解析入门(1)

2401_83817843

于 2024-04-21 13:14:47 发布

阅读量422

点赞数 19

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_83817843/article/details/138031288

版权

程序员专栏收录该内容

372 篇文章 0 订阅

订阅专栏

from lxml import etree

import csv

wb_data = “”"

first item
second item
third item
fourth item
fifth item
“”"

创建一个Element对象

html_element = etree.HTML(wb_data)

程序运行结果

子模块etree的 HTML() 方法用于解析字符串类型的HTML代码。

如果是本地的HTML文件，则可以使用子模块etree的parse()方法：

parser = etree.HTMLParser() # 创建一个HTMLParser对象

html = etree.parse(‘demo.html’, parser=parser) # 解析demo.html文件

获取li标签下面的a标签的href属性

选择属性用@符号。

links = html_element.xpath(‘//li/a/@href’)

print(links)

输出结果：

获取li标签下面的a标签的文件数据

text() 表示标签的文本内容。

results = html_element.xpath(‘//li/a/text()’)

print(results)

输出结果：

__

将上边获取的两组结果组合成字典{‘href’:‘link1.html’,‘tilte’:‘first item’}

lst = []

for link in links:

d = {}

d[‘href’] = link

d[‘title’] = results[links.index(link)]

lst.append(d)

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！**

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）