python 爬取网页正文

最新推荐文章于 2024-04-27 16:08:02 发布

我想我可以更强

最新推荐文章于 2024-04-27 16:08:02 发布

阅读量2.3k

点赞数 1

本文链接：https://blog.csdn.net/chengzheng_hit/article/details/11854219

版权

#!/usr/bin/env python
#coding:utf-8
import htmllib,urllib2
import formatter,StringIO
import urllib

class TrackingParser(htmllib.HTMLParser):
    """Try to keep accurate pointer of parsing location."""
    def __init__(self, writer, *args):
        htmllib.HTMLParser.__init__(self, *args)
        self.writer = writer
    def parse_starttag(self, i):
        index = htmllib.HTMLParser.parse_starttag(self, i)
        self.writer.index = index
        print 'vvvvvvvvvvvvvvvvvvvvvvv\n'
        print index
        return index
    def parse_endtag(self, i):
        print 'vvvvvvvvvvvvvvvvvvvvvvv\n'
        self.writer.index = i
        return htmllib.HTMLParser.parse_endtag(self, i)
class Paragraph:
    def __init__(self):
        self.text = ''
        self.bytes = 0
        self.density = 0.0

class LineWriter(formatter.AbstractWriter):
    def __init__(self, *args):
        self

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我想我可以更强

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python 爬取网页正文

#!/usr/bin/env python#coding:utf-8import htmllib,urllib2import formatter,StringIOimport urllibclass TrackingParser(htmllib.HTMLParser): """Try to keep accurate pointer of parsing location.""
复制链接

扫一扫