HTMLParser
文章平均质量分 80
my2010Sam
这个作者很懒,什么都没留下…
展开
-
#小练习 解析HTML文件并使用字典保存链接
#coding:utf-8from HTMLParser import HTMLParserimport pprintclass myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.d={} self.flag=None sel原创 2013-11-11 12:06:03 · 1021 阅读 · 0 评论 -
#小练习 使用字典保存HTMLParser解析的数据
练习目的:使用字典保存HTMLParser解析的数据#coding:utf-8from HTMLParser import HTMLParserclass myhtmlParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) #定义一个字典d,保存data与href的信息原创 2013-11-08 20:51:55 · 1607 阅读 · 0 评论 -
HTMLParser解析网页,提取链接地址、标题名称,并插入数据库
#coding:utf-8import MySQLdbimport urllib2import reimport timeimport sysfrom HTMLParser import HTMLParser as hp'''1.获取 网易财经 页面内容2.解析网页中链接、标题,放入一个列表中3.如果已存在my163表,则先删除该表,否则再创建表my163,包括编号、链接地原创 2014-02-19 09:57:41 · 2612 阅读 · 0 评论 -
Python之HTML的解析(网页抓取一)
对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用转载 2013-11-08 20:32:21 · 31998 阅读 · 1 评论 -
#小练习 使用HTMLParser获取data时注意事项
from HTMLParser import HTMLParserclass myHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self,tag,attrs): if t原创 2013-11-08 21:05:07 · 1404 阅读 · 0 评论 -
python:解析html(HTMLParser、SGMLParser)
其实python里面有xml.dom模块,但是这次却不能用,为啥呢?因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个转载 2013-11-12 18:11:42 · 6473 阅读 · 0 评论 -
#小练习 使用SGMLParser获取url链接
#获取链接#coding:utf-8from sgmllib import SGMLParserclass urlparser(SGMLParser): def reset(self): self.result=[] SGMLParser.reset(self) def start_a(self,attrs): #学习此原创 2013-11-12 16:52:10 · 1338 阅读 · 0 评论 -
#小练习 SGMLParser练习
SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个:start_t原创 2013-11-12 15:50:04 · 1184 阅读 · 1 评论 -
SGMLParser
http://www.open-open.com/lib/view/1329700631343python提供了SGMLParser类用于html文件的解析。用户只需从SGMLParser类继承子类,并在子类中对html文件做具体处理。例如 具有如下结构的html文件感兴趣内容1感兴趣内容2……感兴趣内容n内容1内容2……内容n我们尝试转载 2013-11-12 15:25:51 · 4657 阅读 · 0 评论 -
#小练习 SGMLParser 解析 HTML
#coding:utf-8from sgmllib import SGMLParserclass GetIdList(SGMLParser): def reset(self): self.IDlist=[] self.flag=False self.getdata=False self.verbatim = 0转载 2013-11-12 15:52:18 · 1609 阅读 · 0 评论 -
SGMLParser (二)
#coding:utf-8from sgmllib import SGMLParser'''目的:解析出字符串中下后面的文本内容。(注意字符串中的div含有嵌套的div)基本的思路: 遇到 设置标记flag = True 遇到后 设置标记flag = False 当flag 为True时遇到 设置标记getdata = True 遇到原创 2014-02-20 14:06:38 · 1079 阅读 · 0 评论