python html解析查找字符串,如果字符串包含html代码，如何用python检测？

最新推荐文章于 2023-12-07 11:17:05 发布

最爱墨色

最新推荐文章于 2023-12-07 11:17:05 发布

阅读量220

点赞数

文章标签： python html解析查找字符串

How to detect either the string contains an html (can be html4, html5, just partials of html within text)? I do not need a version of HTML, but rather if the string is just a text or it contains an html. Text is typically multiline with also empty lines

Update:

example inputs:

html:

I'm title

Hello, world

non-html:

解决方案

You can use an HTML parser, like BeautifulSoup. Note that it really tries it best to parse an HTML, even broken HTML, it can be very and not very lenient depending on the underlying parser:

>>> from bs4 import BeautifulSoup

>>> html = """

...

I'm title

... """

>>> non_html = "This is not an html"

>>> bool(BeautifulSoup(html, "html.parser").find())

True

>>> bool(BeautifulSoup(non_html, "html.parser").find())

False

This basically tries to find any html element inside the string. If found - the result is True.

Another example with an HTML fragment:

>>> html = "Hello, world"

>>> bool(BeautifulSoup(html, "html.parser").find())

True

Alternatively, you can use lxml.html:

>>> import lxml.html

>>> html = 'Hello, world'

>>> non_html = "

>>> lxml.html.fromstring(html).find('.//*') is not None

True

>>> lxml.html.fromstring(non_html).find('.//*') is not None

False

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

最爱墨色

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python html解析查找字符串,如果字符串包含html代码，如何用python检测？

How to detect either the string contains an html (can be html4, html5, just partials of html within text)? I do not need a version of HTML, but rather if the string is just a text or it contains an ht...
复制链接

扫一扫

Python实现查找字符串数组最长公共前缀示例

09-19

在Python编程中，查找字符串数组的最长公共前缀是一项常见的任务，特别是在处理文本数据或进行字符串分析时。这个过程涉及到字符串的遍历、比较以及判断，以找到所有字符串共享的最长的起始部分。以下是一个详细的...

python html字符实体显示出来,解码Python字符串中的HTML实体？

weixin_39692254的博客

06-07

199

Python 3.4HTMLParser.unescape已弃用，而was supposed to be removed in 3.5，虽然它被错误留下。它将很快从语言中删除。相反，使用html.unescape()：import htmlprint(html.unescape('£682m'))Python 2.6-3.3您可以使用标准库中的HTML解析器：>>> try:.....

参与评论您还未登录，请先登录后发表或查看评论

python 数据分析之 HTML文件解析

weixin_42914706的博客

02-19

9849

HTML：是 Hypertext Marked Language，即超文本标记语言，是一种用来制作超文本文档的简单标记语言；HTTP超文本传输协议规定了浏览器在运行 HTML 文档时所遵循的规则和进行的操作。HTTP协议的制定使浏览器在运行超文本时有了统一的规则和标准。HTML文件本质上是文本文件，而普通的文本文件只能显示字符。

python包含html5么_如何用python检测字符串是否包含html代码？

weixin_39805539的博客

11-28

221

我想到的一种方法是将开始标记和结束标记相交，这些标记是通过尝试将文本解析为HTML并将此集合与已知的一组可接受的HTML元素相交而找到的。示例：#!/usr/bin/env pythonfrom __future__ import print_functionfrom HTMLParser import HTMLParserfrom html5lib.sanitizer import HTMLSa...

Python判断html的元素,python判断网页元素是否存在的方法

weixin_29094775的博客

06-15

4023

python判断网页元素是否存在的方法发布时间：2020-08-11 09:19:33来源：亿速云阅读：279作者：小新小编给大家分享一下python判断网页元素是否存在的方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！python判断网页元素是否存在的方法：可以利用try except语句块来进行判断。try except语句块用来捕获并处理异常，如果执行过程中出现异常，系统会自...

python lxml.html.fromstring与etree.HTML()

weixin_44154094的博客

04-08

2798

@[TOC](python lxml.html.fromstring与etree.HTML()) 晚上看了一个大佬的爬虫解析代码，有下面这样一段 import lxml.html resp = requests.get(url, headers=headers) text = resp.content.decode('utf8') # 查了一下，下面这一句也是把html转换为html document树 doc = lxml.html.fromstring(text) 我看的很懵因为我以前从来都是

Python 查找字符在字符串中的位置实例

09-20

如果要查找字符串中所有出现的字符位置，可以遍历字符串并检查每个字符是否与目标字符匹配。下面是一个实现这一功能的示例： ```python str_1 = 'wo shi yi zhi da da niu ' char_1 = input('Please input the Char...

python 查找字符串是否存在实例详解

09-21

在Python编程语言中，处理字符串是一项常见的任务，其中包括查找字符串是否存在的操作。本文将深入探讨如何在Python中检查一个字符串是否包含另一个子字符串，并提供相关的实例解析。首先，Python提供了两个内置...

python字符串查找函数的用法详解

09-19

本篇文章将详细解析Python中用于查找字符串的几个函数：`find()`、`rfind()` 和 `index()`。 1. `find()` 函数： `find()` 函数用于查找子字符串在原字符串中首次出现的位置。如果找到，它会返回子字符串的起始索引...

python根据开头和结尾字符串获取中间字符串的方法

09-22

总之，Python提供了丰富的字符串处理功能，包括查找、截取、替换等，这使得根据开头和结尾字符串获取中间字符串变得简单易行。在实际编程中，理解并熟练运用这些方法能够帮助我们高效地处理各种字符串操作问题。

python爬虫初步学习

qq_44119514的博客

03-30

890

url:表示远程数据的路径，一般是指网址。 Beautiful Soup：是python的一个库，最主要的功能是从网页抓取数据。使用Beautiful Soup时，由于被移植到BS4了，那么导入时我们需要 from bs4 import BeautifulSoup。Beautiful Soup自动将输入文档转换为Unicode编码（Unicode 是国际组织制定的可以容纳世界上所有文字和符号...

Python神器：用Python解析HTML轻松搞定网页数据

热门推荐

xiaoweids的博客

07-03

1万+

转自：微点阅读 https://www.weidianyuedu.com一、强大的BeautifulSoup：BeautifulSoup是一个可以从html或xml文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。在Python开发中，主要用的是BeautifulSoup的查找提取功能，修改功能很少使用1、安装BeautifulSouppip3 install beautifulsoup42、安装第三方html解析器lxmlpip3 install lxml

python实现HTML匹配检查

wwxy1995的博客

04-10

2028

这段代码比经典的括号匹配要复杂一点，用到了python字符串的处理技巧class Stack: def __init__(self): self.items = [] def isEmpty(self): return self.items == [] def push(self, item): self.item...

python html解析查找字符串_如果字符串包含html代码，如何用python检测？

weixin_39632397的博客

12-19

282

How to detect either the string contains an html (can be html4, html5, just partials of html within text)? I do not need a version of HTML, but rather if the string is just a text or it contains an ht...

python html解析查找字符串_python爬虫之html解析Beautifulsoup和Xpath

weixin_42657024的博客

01-12

602

BeautiifulsoupBeautiful Soup 是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful...

python使用正则表达式提取html标签

zhangwei1120112119的专栏

10-30

4721

有些非法标签也被提取出来了，日后改进 #!/usr/bin/python import re import sys fp = open(sys.argv[1],"r") mystr = fp.read(); ans = re.findall("",mystr) for i in ans: print i

Python序列深度解析：字符串、列表与元组

"《python核心编程》第六章主要探讨了Python中的序列类型，包括字符串、列表和元组。章节首先概述了序列的基本概念和操作，强调它们的有序性及通过下标访问成员的特性。接着详细介绍了序列共有的操作符和内建函数。...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交