python解析html用哪个模块_python 3种模块解析html文档

最新推荐文章于 2023-10-08 11:00:21 发布

weixin_39588252

最新推荐文章于 2023-10-08 11:00:21 发布

阅读量120

点赞数

文章标签： python解析html用哪个模块

//BeautifulSoup和html5lib、HTMLParser模块

!/usr/local/bin/python3

from html.parser import HTMLParser

from io import StringIO

from urllib.request import urlopen,Request

from urllib.parse import urljoin

from time import sleep

from bs4 import BeautifulSoup,SoupStrainer

def output(x):

# print(set(x))

print('\n'.join(sorted(set(x))))

# sleep(0.01)

def simpleBS(url,f):

output(urljoin(url,x['href']) for x in BeautifulSoup(f).findAll('a'))

def fasterBS(url,f):

b=BeautifulSoup(f,parseOnlyThese=SoupStrainer('a')).findAll('a')

output(urljoin(url,x['href']) for x in b)

def htmlparser(url,f):

class AnchorParser(HTMLParser):

def handle_starttag(self,tag, attrs):

if tag!='a':

return

if not hasattr(self,'data'):

self.data=[]

for attr in attrs:

if attr[0]=='href':

self.data.append(attr[1])

parser=AnchorParser()

parser.feed(f.read())

output(urljoin(url,x)for x in parser.data)

def process(url,data):

print('\n *** simpleBS')

simpleBS(url,data)

data.seek(0)

print('\n*** fasterBS')

fasterBS(url,data)

data.seek(0)

print('\n ***htmlparser')

htmlparser(url,data)

data.seek(0)

def main():

for url in URLs:

req=Request(url,headers = {

'Connection': 'Keep-Alive',

'Accept': 'text/html, application/xhtml+xml, /',

'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'})

f=urlopen(req)

data=StringIO(f.read().decode())

f.close()

process(url,data)

if name=='main':

main()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39588252

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python requests模块解析html_用python3教你任意Html主内容提取

weixin_39610188的博客

12-03

2734

0x1 工具准备工欲善其事必先利其器，爬取语料的根基便是基于python。我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。简单介绍一个各模块的功能01｜requestsrequests是一个Python第三方库，处理URL资源特别方便。它的官方文档上写着大大口号：HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib...

Python HTML解析模块HTMLParser用法分析【爬虫工具】

09-19

Python的HTMLParser模块是Python标准库中用于解析HTML文档的内置工具，它是基于事件驱动的解析器。在处理HTML文档时，HTMLParser会在遇到特定的HTML元素或结构时调用预定义的回调函数，允许开发者根据需要对这些元素...

参与评论您还未登录，请先登录后发表或查看评论

python 解析模块脚本_Python HTML解析模块HTMLParser用法分析【爬虫工具】

weixin_29372549的博客

01-12

216

本文实例讲述了Python HTML解析模块HTMLParser用法。共享给大家供大家参考，详细如下：简介先简略简介一下。实际上，HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等，是一种处理HTML的简便途径。HTMLParser使用的是一种事件驱动的项目，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序...

python解析html用哪个模块_[转载]python模块学习---HTMLParser(解析HTML文档元素)

weixin_39956009的博客

11-28

HTMLParser是Python自带的模块，使用简单，能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法.使用时需要定义一个从类HTMLParser继承的类，重定义函数：handle_starttag( tag, attrs)handle_startendtag( tag, attrs)handle_endtag( tag)来实现自己需要的功能。tag是的html标...

使用 Python 模块—— HTMLParser 解析 HTML 文档元素

dgn19620的博客

03-28

145

这个文档定义了一个 HTMLParser 类作为解析 HTML 文档的基础。HTMLParser 类的实例可以存储并调用方法来处理 HTML 标签和数据。我们一般通过建立一个 HTMLParser 的子类然后覆盖它的方法来实现我们想要的操作。HTMLParser 有很多方法，一般我们只需要覆盖下面几个方法：HTMLParser.handle_starttag(tag, attrs) ...

python解析html用哪个模块_python如何解析html

weixin_39755218的博客

11-28

138

要理解python是如何解析网页的，首先要理解什么是解析器。什么是网页解析器网页解析器名词解释首先让我们来了解下，什么是网页解析器，简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。HTMLParser是Python自带的模块，使用简单，能够很容易的实现HTML文件的分析。本文主...

python 解析html 模块_使用 Python 模块—— HTMLParser 解析 HTML 文档元素

weixin_28894691的博客

02-09

179

标签：这个文档定义了一个 HTMLParser 类作为解析 HTML 文档的基础。HTMLParser 类的实例可以存储并调用方法来处理 HTML 标签和数据。我们一般通过建立一个 HTMLParser 的子类然后覆盖它的方法来实现我们想要的操作。HTMLParser 有很多方法，一般我们只需要覆盖下面几个方法：HTMLParser.handle_starttag(tag, attrs)#遇到一个...

对Python3 解析html的几种操作方式小结

09-19

该函数使用了`urllib2`模块（在Python3中为`urllib.request`）来发起HTTP请求，并通过传入不同的解析器参数来处理返回的HTML数据。这里展示了如何设置请求头以模拟浏览器行为，以及如何处理服务器返回的GZIP压缩数据...

python 解析XML python模块xml.dom解析xml实例代码

12-24

Python提供了几个库来解析XML，其中最常用的是`xml.dom`模块，特别是`minidom`子模块。本文将深入探讨如何使用`xml.dom.minidom`解析XML文件，并提供一个具体的实例代码。 `xml.dom.minidom`是Python中的一个DOM...

python解析html用哪个模块_使用Python解析HTML

weixin_39900830的博客

11-28

I'm looking for an HTML Parser module for Python that can help me get the tags in the form of Python lists/dictionaries/objects.If I have a document of the form:HeadingSomething hereSomething elsethen...

python解析html用哪个模块_python爬虫模块之HTML解析模块

weixin_39900180的博客

11-28

这个就比较简单了没有什么好强调的，如果返回的json 就是直接按照键值取，如果是网页就是用lxml模块的html进行xpath解析。from lxml import htmlimport jsonclass GetNodeList():def __init__(self):self.getdivxpath="//div[@class=‘demo‘]"def use_xpath(self,sourc...

python解析html模块_python 模块-使用HTMLParser 解析html

weixin_30845365的博客

02-21

334

python里面的HTMLParser解析html，跟c++和其他语言的html库解析不同，是使用类继承的方式。通过重实现HTMLParser类的几个函数，来达到解析html的目的。主要的重载的函数有：handle_starttag #开始标签的解析handle_endtag #结束标签的解析handle_data #标签内数据的解析下面通过一个例子看学习下具体的使用(这个例子是pytho...

python解析html最好选用模块_python 极好用的解析 html 标签的模块

weixin_34883093的博客

01-30

665

#-*- coding: utf-8 -*-from bs4 importBeautifulSoupdefmain():html= '''TestTest"i'm a div" '''soup= BeautifulSoup(html, 'html.parser')#输出整个 html#pr...

python 解析html最好选用的模块_使用Python解析HTML文件而无需外部模块

weixin_39828331的博客

12-07

我正在尝试使用Python解析html文件，而不使用任何外部模块。原因是我正在触发jenkins作业，并遇到了lxml和BeautifulSoup的一些导入问题(试图解决该问题，我认为我在进行工程设计的某个方面来完成我的工作)输入：BA0.000s000N/AAa0.000s000N/AVideoAds0.390s000N/ATotal2710398%输出：我想使用“ suite”类(末尾检查...

python 解析html最好选用的模块_python 极好用的解析 html 标签的模块 - BeautifulSoup...

weixin_40003512的博客

12-07

#-*- coding: utf-8 -*-from bs4 importBeautifulSoupdefmain():html= ‘‘‘TestTest"i‘m a div" ‘‘‘soup= BeautifulSoup(html, ‘html.parser‘)#输出整个 html#pr...

python爬虫模块之HTML解析模块

dianyin7770的博客

06-12

176

这个就比较简单了没有什么好强调的，如果返回的json 就是直接按照键值取，如果是网页就是用lxml模块的html进行xpath解析。 from lxml import html import json class GetNodeList(): def __init__(self): self.getdivxpath="//div[@class='de...

python 解析html 模块_python模块之HTMLParser: 解析html,获取url

weixin_35698069的博客

01-28

187

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParse...

Python的HTMLParser模块：HTML解析的得力工具