python正则提取特定标签内的字符

最新推荐文章于 2024-06-25 18:03:42 发布

weixin_34087307

最新推荐文章于 2024-06-25 18:03:42 发布

阅读量837

点赞数

文章标签： python

原文链接：https://my.oschina.net/raddleoj/blog/810472

版权

2019独角兽企业重金招聘Python工程师标准>>>

python 3.5.2

提取下面数据多个组合

[BEGIN]

[b]*****[e]

[b]-------[e]

[b]XXX

DDD

FFF

[e]

[END]

类似这种数据，提取[BEGIN] 和 [END]中间的内容。

思想，两个标签之间任意字符串，且不含有结尾标签组合的结构。

如果中间有结尾处的字符组合那就没戏了！

r'\[BEGIN\]([\s\S]([^D]|[^N]D|[^E]ND)*)\[END\]'

\[BEGIN\] 开头

([\s\S]([^D]|[^N]D|[^E]ND)*) 中间

[\s\S] 任意字符串 ([^D]|[^N]D|[^E]ND) 不含有END组合的 * 任意个

\[END\] 结尾处字符串

xx = """[BEGIN]
[L_B]111dsfasfa 黄s423333[L_E]
[END]
[BEGIN]
[L_B]222dsfas  23444[L_E]
[END]"""
y = re.findall(r'\[BEGIN\]([\s\S]([^\]][^D]\]|[^N]D\]|[^E]ND\]|[^\[]END\])*)\[END\]', xx, re.M)
print(y)

上面的内容比之前讲解的内容稍长排除了 [END] 组合

但是可见后标签越长匹配串越长效率越低

之后又经过改进最终如下

r'\[BEGIN\]([\s\S.]*?)\[END\]'

([\s\S.]*?) 加上？号不贪婪匹配点放在方括号内

基本上完美了。这应该是最终解决方案。

研究学习到了。

转载于:https://my.oschina.net/raddleoj/blog/810472

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34087307

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则提取特定标签内的字符

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

python中如何使用正则表达式提取数据

ai520wangzha的博客

06-28

7131

以上为个人经验，希望能给大家一个参考。点击拿去50G+学习视频教程100+Python初阶、中阶、高阶电子书籍。

Python正则提取字符串

abcd_efg1234567的博客

05-31

3089

import re str1 = 'sddf3gwrw' r = re.match('\d',str1) #匹配单个数字 print(r) r = re.search('\d',str1) print(r) print(r.group()) str1 = 'sddf3g889wrw' r = re.match('\d+',str1) print(r) str1 = 'sddf3999g889wrw' r = re.search('\d+',str1) # 匹配连续多个数字 print(r) str1.

参与评论您还未登录，请先登录后发表或查看评论

正则提取出HTML正文（剔除标签内容）python实现

pingzi1990的专栏

12-03

5334

正则提取出HTML正文（剔除标签内容）python实现

python 正则表达式提取字符串

热门推荐

杨秀璋的专栏

04-07

12万+

这篇文章主要是介绍Python爬取网页信息时，经常使用的正则表达式及方法。它是一篇总结性文章，实用性比较大，主要解决自己遇到的爬虫问题，也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点，这就更方便了，但本文更多的是介绍基于正则的底层爬取分析。涉及内容如下：常用正则表达式爬取网页信息及HTML分析总结 1.获取<t...

python 正则提取HTml标签文本内容的

我叫张大大爷的博客

01-23

1万+

方法一: import re title = '<a helf="www.baidu.com" title="河南省">你好</a>' res = re.findall(r'<a.*?>(.*?)</a>', title) print(res) 方法二:

使用Python 正则匹配两个特定字符之间的字符方法

09-19

### 使用Python正则表达式匹配两个特定字符之间的字符方法 #### 背景与目标在文本处理领域，正则表达式是一种强大的工具，能够帮助我们高效地完成字符串的搜索、替换等操作。Python作为一门功能强大且易用的语言...

python使用正则表达式匹配字符串开头并打印示例

10-20

在Python中使用正则表达式匹配字符串开头并打印的示例涉及到几个重要的知识点，包括正则表达式的编写、Python中的正则表达式库re的使用、以及如何利用正则表达式提取特定模式的字符串。以下是对这些知识点的详细介绍...

Python使用中文正则表达式匹配指定中文字符串的方法示例

10-20

标题所涉及的知识点为：Python使用中文正则表达式匹配指定中文字符串的方法示例。在该主题下，我们首先要理解什么是正则表达式及其在Python中的应用。正则表达式是一套规则和符号模式，用于文本的查找、匹配和替换...

利用正则表达式提取固定字符之间的字符串

12-13

为了模拟后瞻，我想，要不就用笨方法，先将前后缀字符串一同提取，然后再讲前后缀字符串一同replace为空字符串。于是就有了下面这个简单的方法，但确实很实用：示例代码如下 // 提取固定字符之间的字符串 function...

python 字符串只保留汉字的方法

09-19

今天小编就为大家分享一篇python 字符串只保留汉字的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python 保留html标签,Python - 剥离html标签中的字符串，保留链接，但处于已更改的形式...

weixin_35681614的博客

06-19

263

有没有办法从字符串中删除所有的html标签，但留下一些链接并更改它们的表示形式？例如：Python - 剥离html标签中的字符串，保留链接，但处于已更改的形式description: Animation params. For other animations, see myA.animation and the animation parameter under the API methods...

Python爬虫时获取标签内全部文本内容的四种方式

qq_35866413的博客

08-06

9万+

前文提到了Python爬虫框架之一的——Scrapy框架安装和相关命令的简单使用,熟悉了起码的实用流程。今天我们进行一些细节上的总结。如题，在我们要获取目标文本所在的标签时，通常有几种方法，下面我们挨个举例说明各种用法的使用：以百度贴吧小说吧中的一篇小说为例,我们开始进行爬虫举例,该小说链接为:https://tieba.baidu.com/p/5702862812?pn=1 ...

Python中提取指定字符串取出中间文本正则表达式

丿灬安之若死

08-04

6万+

Python中提取指定字符串，从一个字符串中提取<>里面的内容，整理了两种实现方式，后续有更多的实现方式继续更新代码如下： #coding:utf8 import re import sys reload(sys) sys.setdefaultencoding('utf8') #!/usr/bin/python template = "我要<歌手名>的<歌曲名...

python提取网页的特定内容（正则表达式实现）

Sunshine的专栏

03-16

3万+

关于正则表达式参考正则表达式 python可以很方便地抓取网页并过滤网页的内容，那么，如何从如下的网页中提取csdn文章的标题“《unix网络编程（卷1）源代码的使用方法》”。 window.quickReplyflag = true; 《unix网络编程（卷1）》源代码的使

爬虫---获取指定标签内的文本

落神的博客

08-04

2万+

学习爬虫主要是为了从网站上获取我们想要的数据，但是工作以后，我们爬去的数据是多种多样的，所以这就要求我们掌握多种查找数据的方式。今天以查找文本为例给大家介绍我常用的四种查找数据的方式。以在scrapy框架抓取百度贴吧为例，介绍四种抓取文本的方式。 1. 获取最外层标签，遍历内部所有的子标签“/text()”，获取标签文本 class XiaoshuoSpider(scrapy.Spide...

python 正则表达式去除文本中标签内容

eddiehrs的博客

10-11

4146

print re.sub("<[^>]*>","",text) 输出正确结果，而 print t.replace("<[^>]*>","")不能输出正确结果 import re t = "<text>jsdkjfsgn</text>" print re.sub(

Python正则表达式详解：元字符与应用

正则表达式是一种强大的文本处理工具，它利用字符和特殊符号组合成模式来描述一类字符串，广泛应用于文本检索、筛选和修改等场景。正则表达式的出现是由于计算机处理文本任务的增加，特别是根据内容进行高效查找的...