urllib库 + re模块爬取内涵吧的文字段子

源码

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
爬去内涵吧的段子
    关键点:
        1.分析url
        2.分析html源码中段子的标题和内容,构建正则表达式
        3.findall()方法
"""

import urllib.request
import re


class Spider(object):

    def __init__(self):
        """
        page:页码
        """
        self.page=1
        self.url="http://www.neihan8.com/wenzi/index.html"

    def load_page(self):
        """加载网页数据"""
        request_header={
            "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
        }
        req=urllib.request.Request(self.url,headers=request_header)
        resp=urllib.request.urlopen(req)
        html=resp.read().decode('utf-8')
        # print(html)

        self.parse_page(html)

        self.page+=1
        if self.page!=1:
            self.url=re.sub(r'index\w*\.html$','index_'+str(self.page)+'.html',self.url)
            # print(self.url)

    def parse_page(self,html):
        """解析网页数据,提取段子标题和内容"""
        """
        <h3><a href="/article/209245.html" class="title" title="弹壳">弹壳</a></h3>
        <div class="desc">   70年代,有一天,我们村里要放电影,村里人大字不识一个,很多小孩没上过学,放的是打仗的片子,到电影队收幕的时候,村里的小孩都去扒那个幕布。  电影队的人很奇怪,就问小孩:“你</div>
        """

        # re.S,全文匹配
        patern=re.compile(r'<h3><a\shref="(.*?)"\sclass="title"\stitle="\w*?">(.*?)</a></h3>.*?<div class="desc">(.*?)</div>',re.S)

        items=patern.findall(html)
        # print(items.__len__())

        for item in items:
            href='http://www.neihan8.com'+item[0]
            title=item[1]
            desc=item[2]
            data=href+'\n'+title+'\n'+desc+'\n\n'

            print(data)
            self.save(data)

    def save(self,data):
        """保存数据到本地磁盘"""
        with open('duanzi.txt',mode='a') as f:
            f.write(data)
            f.flush()

    def work(self):
        """爬虫调度器"""
        while True:
            key=input("继续请按回车键,退出请按q键 >>>")
            if key=="q":
                break
            else:
                print("加载中...")
                self.load_page()


if __name__ == '__main__':
    spider=Spider()
    spider.work()

运行效果




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值