Spider—糗事百科段子爬取

说明:无意滋生事端,仅学习分享,如有侵权,立即删除

import requests
import json


class QiushibaikeSpider():
    def __init__(self):
        self.url='https://www.qiushibaike.com/text/?page={}'
        self.headers = {
            'user-agent':'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Mobile Safari/537.36',
        }

    def get_url_list(self):
        url_lists = list()
        for num in range(12):
            url_lists.append(self.url.format(num+1))
        return url_lists

    def get_response_content_lists(self,url_lists):
        response_content_lists = list()
        for url in url_lists:
            ret = requests.get(url,headers=self.headers).content.decode()
            ret = json.loads(ret)
            content = list()
            for num in range(25):
                ret_ = ret[num]["data"]["content"]
                content.append(ret_)
            response_content_lists.append(content)
        return response_content_lists

    def save_file(self,ret):
        len_num = len(ret)
        content_list = list()
        for i in ret:
            for j in i:
                content = j
                with open('糗事百科的{}个段子.txt'.format(len_num*24),'a+',encoding="utf8") as f:
                    f.write("*"*20+"\n"+content+'\n'*5)
        print("保存成功,请查看")

    def run(self):
        # 获取url列表
        url_lists = self.get_url_list()
        print(len(url_lists))
        # 获取content
        response_content_lists = self.get_response_content_lists(url_lists)
        # 存入文件    
        self.save_file(response_content_lists)

if __name__=='__main__':
    obj = QiushibaikeSpider()
    obj.run()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值