day2笔记-python爬虫-数据解析

冰淇淋和慕斯蛋糕

已于 2022-03-07 14:41:27 修改

阅读量396

点赞数

分类专栏： #日常文章标签： python

于 2020-02-01 15:40:33 首次发布

本文链接：https://blog.csdn.net/qq_45721997/article/details/104124711

版权

16 篇文章 0 订阅

订阅专栏

参考网址
在这里插入图片描述
通过在 *、+ 或 ? 限定符之后放置 ?，该表达式从"贪婪"表达式转换为"非贪婪"表达式或者最小匹配。

import re
title = "你好，hello,世界"
pattern = re.compile(r'[\u4e00-\u9fa5]+') #这里的+是连接符
result = pattern.findall(title)
print(result)

[‘你好’, ‘世界’]

lxml的相关类：Element,ElementTree,ElementPath
Xpath语法：
nodename: 选取此节点的所有子节点
/：从根节点选取
//：从匹配选择的当前节点选取文档中的节点，不用考虑位置
. :选取当前节点
… :选取当前节点的父节点
@ ：选取属性

例子：
html = etree.parse(‘hello.html’)
result =html.xpath(’//li/@class’) #返回所有li标签下拥有属性class的属性值

lxml库：大部分功能在lxml.etree模块中
from lxml import etree
语法：

etree.fromstring(’<></>’) --返回根节点
etree.XML(’<></>’) --与上同
etree.HTML(’<></>’) --自动增补

创建beautifulsoup 书P79
涉及到的方法：

关注