HTMLParser python usage

转载 2013年12月02日 22:07:31
'''
Created on 2013-12-2
http://cloudaice.com/yong-pythonde-htmlparserfen-xi-htmlye-mian/

@author: Administrator
'''
from HTMLParser import  HTMLParser


import urllib
import sys


class ParseLinks(HTMLParser):
    
    def __init__(self):
        HTMLParser.__init__(self)
        self.data = []
        self.href=0
        self.linkname=''
        
    def handle_starttag(self, tag,attrs):
        
        if tag == 'a':
            for name,value in attrs:
                if name == 'href':
                    self.href =1
                    
    
    def handle_data(self, data):
        if self.href :
            self.linkname += data
            
        
    def handle_endtag(self, tag):
        if tag == 'a':
            self.linkname = ''.join(self.linkname.split())
            self.linkname = self.linkname.strip()
            
            if self.linkname:
                self.data.append(self.linkname)
            self.linkname = ''
            self.href = 0
            
    def getresult(self):
        for value in self.data:
            print value    
 
 
        
if __name__ == "__main__":
    MyParser = ParseLinks()
    MyParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
    MyParser.getresult()

    MyParser.close()


上面的解析实现了下面的功能,还是正则比较方便

p = re.compile(r'<a.*?>(.*?)</a>', re.I| re.M)
 match = p.findall(html)
 print match

            
        
        
        
        
        
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
        

Python Standard Library - JSON Usage

Usage1: 说明: (1)fp --转换表 Supports the following objects and types by default: Python JSON ...

Advanced SQLite Usage in Python

Following the SQLite3 series, this post is about some advanced topics when we are working with the S...

Python的自带模块——HTMLParser的初步学习

Python的自带模块——HTMLParser的初步学习 HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 本文主要简单讲一下HTMLParser的用法. ...

Python 网络抓取和文本挖掘-1 HTML 和 HTMLParser

应用urllib2和HTMLParser从网页中提取需要的数据。
  • hjh00
  • hjh00
  • 2017年02月02日 19:41
  • 696

一个高手的 python的HTMLParser学习笔记

先来大致看看HTMLParser的源代码吧: """A parser for HTML and XHTML.""" # This file is based on sgmllib.py, but...

python网络爬虫基础(利用HTMLParser)

该程序爬虫对象是今日神段里的热门文章,利用HTMLParser和正则表达式 from html.parser import * import urllib.request import re cla...

利用Python抓取和解析网页(转载) HTMLParser 和 urllib

这是我写爬虫的时候搜到的一篇比较不错的文章 讲的还是比较详细 虽然代码有部分缩进错误 稍微修改下就可以有很好的效果了 于是我就脸皮厚的贴了过来 收藏吧算是 对搜索引擎、文件索引、文档...

python下用HTMLParser分析网页方法

http://www.cnzzad.com/outtut/35897.html HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种...
  • uestcyao
  • uestcyao
  • 2012年08月17日 11:48
  • 22326

利用python脚本抓取AC的代码[爬虫+HTMLParser+handle_entityref+正则表达式+模拟登陆+文件操作]

#-*- coding=utf-8 -*- import time,urllib2,urllib,re,HTMLParser,os from htmlentitydefs import entityd...

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:HTMLParser python usage
举报原因:
原因补充:

(最多只允许输入30个字)