Python解析已下载html文件

最新推荐文章于 2024-07-29 02:32:41 发布

AC_Gibson

最新推荐文章于 2024-07-29 02:32:41 发布

阅读量2.8k

点赞数

分类专栏： Python学习笔记

本文链接：https://blog.csdn.net/ac_gibson/article/details/50199051

版权

该博客介绍如何使用Python在离线环境中解析已下载的HTML文件，特别是从百度百科页面中提取主标题及前两个<h2>标签下的详细内容。

摘要由CSDN通过智能技术生成

离线解析百度百科中的“百度百科”，提取各级标题：

#encoding:UTF-8
#_Author_:Ibsen

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
	def __init__(self):
		SGMLParser.__init__(self)
		self.is_h1=False
		self.flag=False
		self.getdata=False
		self.name = []
	def start_h1(self,attrs):
		self.is_h1=True
	def end_h1(self):
		self.is_h1=False
	def start_span(self, attrs):
		for k,v in attrs:
			if k=='class' and v=='title-text':
				self.flag=True;
				return 
	def end_span(self):
		self.flag=False
	def handle_data(self, text):
		if self.is_h1:
			self.name.append(text)
		if self.flag:
			self.name.append(text)
 
content = urllib2.urlopen('file:///C:/Users/John/Desktop/1.html').read()
#content=file('C:/Users/John/Desktop/1.html').read()
listname = ListNam