HTMLParser
文章平均质量分 80
my2010Sam
这个作者很懒,什么都没留下…
展开
-
#小练习 解析HTML文件并使用字典保存链接
#coding:utf-8 from HTMLParser import HTMLParser import pprint class myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.d={} self.flag=None sel原创 2013-11-11 12:06:03 · 1046 阅读 · 0 评论 -
#小练习 使用字典保存HTMLParser解析的数据
练习目的:使用字典保存HTMLParser解析的数据 #coding:utf-8 from HTMLParser import HTMLParser class myhtmlParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) #定义一个字典d,保存data与href的信息原创 2013-11-08 20:51:55 · 1635 阅读 · 0 评论 -
HTMLParser解析网页,提取链接地址、标题名称,并插入数据库
#coding:utf-8 import MySQLdb import urllib2 import re import time import sys from HTMLParser import HTMLParser as hp ''' 1.获取 网易财经 页面内容 2.解析网页中链接、标题,放入一个列表中 3.如果已存在my163表,则先删除该表,否则再创建表my163,包括编号、链接地原创 2014-02-19 09:57:41 · 2653 阅读 · 0 评论 -
Python之HTML的解析(网页抓取一)
对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用转载 2013-11-08 20:32:21 · 32088 阅读 · 1 评论 -
#小练习 使用HTMLParser获取data时注意事项
from HTMLParser import HTMLParser class myHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self,tag,attrs): if t原创 2013-11-08 21:05:07 · 1435 阅读 · 0 评论 -
python:解析html(HTMLParser、SGMLParser)
其实python里面有xml.dom模块,但是这次却不能用,为啥呢?因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。 sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个转载 2013-11-12 18:11:42 · 6509 阅读 · 0 评论 -
#小练习 使用SGMLParser获取url链接
#获取链接 #coding:utf-8 from sgmllib import SGMLParser class urlparser(SGMLParser): def reset(self): self.result=[] SGMLParser.reset(self) def start_a(self,attrs): #学习此原创 2013-11-12 16:52:10 · 1368 阅读 · 0 评论 -
#小练习 SGMLParser练习
SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。 SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个: start_t原创 2013-11-12 15:50:04 · 1209 阅读 · 1 评论 -
SGMLParser
http://www.open-open.com/lib/view/1329700631343 python提供了SGMLParser类用于html文件的解析。用户只需从SGMLParser类继承子类,并在子类中对html文件做具体处理。 例如 具有如下结构的html文件 感兴趣内容1 感兴趣内容2 …… 感兴趣内容n 内容1 内容2 …… 内容n 我们尝试转载 2013-11-12 15:25:51 · 4717 阅读 · 0 评论 -
#小练习 SGMLParser 解析 HTML
#coding:utf-8 from sgmllib import SGMLParser class GetIdList(SGMLParser): def reset(self): self.IDlist=[] self.flag=False self.getdata=False self.verbatim = 0转载 2013-11-12 15:52:18 · 1672 阅读 · 0 评论 -
SGMLParser (二)
#coding:utf-8 from sgmllib import SGMLParser ''' 目的:解析出字符串中下后面的文本内容。(注意字符串中的div含有嵌套的div) 基本的思路: 遇到 设置标记flag = True 遇到后 设置标记flag = False 当flag 为True时遇到 设置标记getdata = True 遇到原创 2014-02-20 14:06:38 · 1119 阅读 · 0 评论