urllib2爬取小说三寸人间

最新推荐文章于 2022-07-29 15:06:37 发布

mannnn__

最新推荐文章于 2022-07-29 15:06:37 发布

阅读量264

点赞数

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/mannnn__/article/details/82998997

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

# -*- coding: UTF-8 -*-

import urllib2
import re
import ssl
import sys

if __name__ == "__main__":

    #代理
    proxy = {
        'http': 'xxx',
        'https': 'xxx'
    }

    ssl_context = ssl._create_unverified_context()

    https_handler = urllib2.HTTPSHandler(context=ssl_context)

    url = "https://www.i7wx.com/book/0/636/"

    proxy_handler = urllib2.ProxyHandler(proxy)

    opener = urllib2.build_opener(proxy_handler, https_handler)

    response = opener.open(url)

    # print response.read().decode('gbk')

    pattern = re.compile(r'<a href="(\d*.html)">(.*?)</a>', re.I)

    result = pattern.findall(response.read().decode('gbk'))

    for k, v in result:
        # print k, v
        with open("./novel/" + v + ".txt", 'w') as f:
            r = opener.open(url + k)

            pattern = re.compile(r'<div id="content">(.*?)</div>')

            # print r.read().decode('gbk')
            match = pattern.findall(r.read().decode('gbk'))

            p2 = re.compile(r'(<br/><br/>)')

            p3 = re.compile(r'&nbsp;')

            if match:
                sub = p2.sub('\n', match[0])
                sub = p3.sub('', sub)
                print sub

                f.write(sub.encode('utf-8'))
            f.close()

mannnn__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib2爬取小说三寸人间

# -*- coding: UTF-8 -*-import urllib2import reimport sslimport sysif __name__ == "__main__": #代理 proxy = { 'http': 'xxx', 'https': 'xxx' } ssl_context = ssl._...
复制链接

扫一扫

专栏目录