通过正则表达式解析HTML入门指南

最新推荐文章于 2024-09-19 21:32:18 发布

Wenren_Huang

最新推荐文章于 2024-09-19 21:32:18 发布

阅读量2.1k

点赞数 2

分类专栏： Python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/super__dreamer/article/details/78538768

版权

一个完整的HTML网页通常是由很多标签组成的,通过正则表达式我们可以筛选出我们想要的内容。一般我们利用正则表达式来获取标签中的内容或者属性值，获取到内容和属性值之后，我们还可以利用正则表达式进一步获取想要的内容。

python中使用正则表达式解析HTML的步骤：

首先需要引入re模块
根据所要获取的内容或者属性值定义一个正则表达式
利用re库提供的方法获取满足所定义的正则表达式的内容或属性值

下面是一个简单的demo，包含了内容的获取，以及属性值的获取：

# coding: utf-8
# @author: huangwenren

import re

def getContent():
    html = '''
    <tr>
        <th>性別：</th>
        <td>男</td>
    </tr>
    '''
    print(html)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wenren_Huang

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

正则解析html

06-30

正则解析html

Java正则表达式详解+基于HTMLParser解析HTML网页

08-02

如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.

1 条评论您还未登录，请先登录后发表或查看评论

解析HTML正则表达式

heiyeluren的blog（黑夜路人的开源世界）

05-15

8009

//把所有HTML标签找出来哈哈，继昨天的那个正则表达式 之后又写了一个更长的Regular Expression，全长527，是用于查找出所有的XHTML/HTML的标记外面的所有空格，并将之转换为的。希望这个能够解决dudu提的一个cnblogs的bug：）即使不能解决问题也算是对System.Text.RegularExpression.Regex的一个练笔了：）

爬虫必备知识点---正则表达式---11.py

最新发布

m0_75084899的博客

09-19

950

注意：re.match("pattern","string","flags" ) 这里的flags为python中的编译标注位，用于修改正则表达式的匹配方式。多数字、字母和符号会简单地匹配自身，但规则有例外，有些字符是特殊的，并不匹配自身。()分组、\num ，\1 或者\\1 需要转义字符帮助，还有就是1代表的是第一个分组，输出第一个分组print（re_match.group(1))的内容。匹配操作 re.match() 从字符串的开始进行匹配,如果开始部分匹配成功就返回匹配对象,否则返回None。

正则表达式解析html

pizekerwen的专栏

09-30

545

来源于网络，java正则表达式过滤html文档，仅作参考： public String HtmlToTextGb2312(String inputString ) { String htmlStr = inputString; //含html标签的字符串 String textStr =""; Pattern p_script; Matcher m_script; P...

解析HTML正则

小影

07-17

3220

如例： /<\s*(\S+)(\s[^>]*)?>[\s\S]*<\s*\/\1\s*>/ 想要看懂正则表达式，最好的办法是一步一步解析： 1）、先从'[\s\S]*'为分界点，前面的内容可以划分为'<\s*(\S+)(\s[^>]*)?>'。 '\s'表示匹配任何空白字符，包括空格、制表符、换页符等等，等价于'[\f\n\r\...

用正则表达式分析HTML

castellan的专栏

05-03

1993

我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理，剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率，这一点恐怕还不能得到验证。我想还是先做些具体的事情，效率的问题我们可以慢慢考证。1. 获取图片的源地址：(?si)]这个表达式不是抽取完整的标签。因为我们只关心img 标签中的 src 属性，

html中如何使用正则表达式,如何使用正则表达式解析此HTML？

weixin_42149145的博客

05-30

381

或者你可以这样做：$html = <<URL1This is Url-2This is Url-3Sweet URL 4HTML;$xml = new DOMDocument();@$xml->loadHTML($html);$links=array();$i=0;//Get all divsforeach($xml->getElementsByTagName('div')...

正则表达式入门指南：《学习正则表达式》解析

"《学习正则表达式》是由Michael Fitzgerald所著，王热宇翻译的一本面向初学者的正则表达式指南。本书是图灵程序设计丛书中的一本，由人民邮电出版社出版。全书以清晰易懂的方式讲解正则表达式的基础到高级应用，...

正则表达式入门与实战指南

正则表达式是一种强大的文本处理工具，用于匹配、查找、替换和解析字符串。这本书"精通正则表达式"深入介绍了这一主题，适合初学者和有经验的开发者阅读。它展示了正则表达式在解决实际问题中的应用，并将其与编程...

C#正则表达式入门指南：解析与应用

- [C#正则表达式入门](http://greatverve.cnblogs.com/archive/2011/06/27/csharp-reg.html) 本文作为正则表达式的入门引导，主要介绍了正则表达式的基本概念和.NET框架中与之相关的类。更高级的正则表达式功能，如...

掌握正则表达式：从入门到实践指南

总体来说，这是一本全面且实用的正则表达式入门指南，是每一个希望在这个领域有所建树的专业人士必备的学习资料。无论是初学者还是有一定经验的开发者，都可以从中获益匪浅，提升文本处理和数据解析的能力。

HTML解析之一：正则表达式

zhang__init__的博客

10-21

1581

一：入门小例子 \bwe\b匹配we \b 是元字符，不代表空格，标点符号，换行，只是用来匹配位置 . 元字符，匹配除换行符的任意字符 * 元字符，匹配数量 .* 匹配任意数量的不换行字符二：常用元字符四种作用：匹配字符，匹配位置，匹配数量，匹配模式 . 匹配除换行符的任意字符 \b 匹配单词的开始或结束 \d 匹配数字 \w 匹配字母，数字，下划线或汉字 \s 匹配任意空白符，包括空格

正则解析html代码,c# 使用正则解析html(示例代码)

weixin_42524750的博客

06-07

333

1 #region 解析HTML2 /// 3 ///获取网页标签内容4 /// 5 public static string[] RegexHtmlToFormat(string as_Html, stringtags)6 {7 List list = new List();8 Reg...

正则表达式解析HTML,code

iteye_4657的博客

04-11

132

public class HTMLBean<T> { private String eleName;//元素名称 private int eleCount;//元素个数 private String result;//元素值 private Map<String,T> attribute;//元素属性 public String getResu...

正则解析html,正则表达式解析HTML

weixin_36480721的博客

05-31

317

尝试这样的事情：Description:([^以下是如何使用它的示例：using System;using System.Text.RegularExpressions;class Example{static void Main(){String str = @"Job Title: Test textJobId: 56565-116503City: San DiegoState: CAZip ...

Java使用正则表达式解析HTML代码

Garson的博客

09-07

662

使用Java正则表达式拆分Html格式可以帮助爬虫做网页文本分析

正则表达式解析网页

小旺的博客

12-20

3402

正则表达式解析网页首先将源代码变成字符串，然后用正则表达式匹配想要的数据模式描述模式描述 . 匹配任意字符，除了换行符 \s 匹配空白字符 * 匹配前一个字符0或多次 \S 匹配任何非空白字符 + 匹配前一个字符1或多次 \d 匹配数字，[0~9] ？匹配前一个字符0或1次 \D 匹配任何非数字，[ ^0~9 ] ^ 匹配字符串开头 \w 匹配字母数字，[A-Za-z0-9] $ 匹配字符串结尾 \W 匹配非字母数字，[ ^A-Za-z0-9 ] ( )