urllib库 + re模块爬取内涵吧的文字段子

最新推荐文章于 2021-06-04 10:06:08 发布

「已注销」

最新推荐文章于 2021-06-04 10:06:08 发布

阅读量849

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/topleeyap/article/details/78852118

版权

爬虫专栏收录该内容

38 篇文章 1 订阅

订阅专栏

源码

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
爬去内涵吧的段子
    关键点:
        1.分析url
        2.分析html源码中段子的标题和内容,构建正则表达式
        3.findall()方法
"""

import urllib.request
import re


class Spider(object):

    def __init__(self):
        """
        page:页码
        """
        self.page=1
        self.url="http://www.neihan8.com/wenzi/index.html"

    def load_page(self):
        """加载网页数据"""
        request_header={
            "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
        }
        req=urllib.request.Request(self.url,headers=request_header)
        resp=urllib.request.urlopen(req)
        html=resp.read().decode('utf-8')
        # print(html)

        self.parse_page(html)

        self.page+=1
        if self.page!=1:
            self.url=re.sub(r'index\w*\.html$','index_'+str(self.page)+'.html',self.url)
            # print(self.url)

    def parse_page(self,html):
        """解析网页数据,提取段子标题和内容"""
        """
        <h3><a href="/article/209245.html" class="title" title="弹壳">弹壳</a></h3>
        <div class="desc"> 　　70年代，有一天，我们村里要放电影，村里人大字不识一个，很多小孩没上过学，放的是打仗的片子，到电影队收幕的时候，村里的小孩都去扒那个幕布。　　电影队的人很奇怪，就问小孩：“你</div>
        """

        # re.S,全文匹配
        patern=re.compile(r'<h3><a\shref="(.*?)"\sclass="title"\stitle="\w*?">(.*?)</a></h3>.*?<div class="desc">(.*?)</div>',re.S)

        items=patern.findall(html)
        # print(items.__len__())

        for item in items:
            href='http://www.neihan8.com'+item[0]
            title=item[1]
            desc=item[2]
            data=href+'\n'+title+'\n'+desc+'\n\n'

            print(data)
            self.save(data)

    def save(self,data):
        """保存数据到本地磁盘"""
        with open('duanzi.txt',mode='a') as f:
            f.write(data)
            f.flush()

    def work(self):
        """爬虫调度器"""
        while True:
            key=input("继续请按回车键,退出请按q键 >>>")
            if key=="q":
                break
            else:
                print("加载中...")
                self.load_page()


if __name__ == '__main__':
    spider=Spider()
    spider.work()

运行效果

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib库 + re模块爬取内涵吧的文字段子

源码# !/usr/bin/env python# -*- coding:utf-8 -*-"""爬去内涵吧的段子关键点: 1.分析url 2.分析html源码中段子的标题和内容,构建正则表达式 3.findall()方法"""import urllib.requestimport reclass Spider(o
复制链接

扫一扫