Python解析已下载html文件

该博客介绍如何使用Python在离线环境中解析已下载的HTML文件,特别是从百度百科页面中提取主标题及前两个<h2>标签下的详细内容。
摘要由CSDN通过智能技术生成

离线解析百度百科中的“百度百科”,提取各级标题:

#encoding:UTF-8
#_Author_:Ibsen

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
	def __init__(self):
		SGMLParser.__init__(self)
		self.is_h1=False
		self.flag=False
		self.getdata=False
		self.name = []
	def start_h1(self,attrs):
		self.is_h1=True
	def end_h1(self):
		self.is_h1=False
	def start_span(self, attrs):
		for k,v in attrs:
			if k=='class' and v=='title-text':
				self.flag=True;
				return 
	def end_span(self):
		self.flag=False
	def handle_data(self, text):
		if self.is_h1:
			self.name.append(text)
		if self.flag:
			self.name.append(text)
 
content = urllib2.urlopen('file:///C:/Users/John/Desktop/1.html').read()
#content=file('C:/Users/John/Desktop/1.html').read()
listname = ListNam
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值