HTMLParser python usage

转载 2013年12月02日 22:07:31
'''
Created on 2013-12-2
http://cloudaice.com/yong-pythonde-htmlparserfen-xi-htmlye-mian/

@author: Administrator
'''
from HTMLParser import  HTMLParser


import urllib
import sys


class ParseLinks(HTMLParser):
    
    def __init__(self):
        HTMLParser.__init__(self)
        self.data = []
        self.href=0
        self.linkname=''
        
    def handle_starttag(self, tag,attrs):
        
        if tag == 'a':
            for name,value in attrs:
                if name == 'href':
                    self.href =1
                    
    
    def handle_data(self, data):
        if self.href :
            self.linkname += data
            
        
    def handle_endtag(self, tag):
        if tag == 'a':
            self.linkname = ''.join(self.linkname.split())
            self.linkname = self.linkname.strip()
            
            if self.linkname:
                self.data.append(self.linkname)
            self.linkname = ''
            self.href = 0
            
    def getresult(self):
        for value in self.data:
            print value    
 
 
        
if __name__ == "__main__":
    MyParser = ParseLinks()
    MyParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
    MyParser.getresult()

    MyParser.close()


上面的解析实现了下面的功能,还是正则比较方便

p = re.compile(r'<a.*?>(.*?)</a>', re.I| re.M)
 match = p.findall(html)
 print match

            
        
        
        
        
        
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
        

相关文章推荐

python网络爬虫基础(利用HTMLParser)

该程序爬虫对象是今日神段里的热门文章,利用HTMLParser和正则表达式 from html.parser import * import urllib.request import re cla...

Python 网络抓取和文本挖掘-1 HTML 和 HTMLParser

应用urllib2和HTMLParser从网页中提取需要的数据。
  • hjh00
  • hjh00
  • 2017-02-02 19:41
  • 535

一个高手的 python的HTMLParser学习笔记

先来大致看看HTMLParser的源代码吧: """A parser for HTML and XHTML.""" # This file is based on sgmllib.py, but...

Python的自带模块——HTMLParser的初步学习

Python的自带模块——HTMLParser的初步学习 HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 本文主要简单讲一下HTMLParser的用法. ...

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览...

python下用HTMLParser分析网页方法

http://www.cnzzad.com/outtut/35897.html HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种...

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览...

python的HTMLParser

示例1:基本函数的理解 #!/usr/bin/env python # coding=utf-8 from HTMLParser import HTMLParser class MyHTMLParse...

python之htmlParser入门教程

来源 《TextProcessing in Python》  和python官方  tutorial  HTMLParser.HTMLParser() htmlParser模块包含了类HTMLPar...

Python学习总结笔记(6)-- HTML解析之HTMLParser

网页爬虫避免不了要解析html页面,需要获取其中的超链接等信息。HTML本质上也是XML文档,但是其语法没有那么严格,所以不能用XML解析的方法来解析HTML。HTMLParser是一个很简单的解析H...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)