requests 用类封装一个基本爬虫（入门，仅供参考）

最新推荐文章于 2024-04-27 14:08:00 发布

qq_42847500

最新推荐文章于 2024-04-27 14:08:00 发布

阅读量531

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_42847500/article/details/85237911

版权

以百度贴吧为例（爬取lol吧）

import requests

class TiebaSpider:
    def __init__(self,tieba_name_crawl):
        """
        初始化必要参数,完成基础设置
        """
        self.tieba_name = tieba_name_crawl
        self.url_base   = "https://tieba.baidu.com/f?kw=" + tieba_name_crawl + "&ie=utf-8&pn={}"
        self.headers    = {"User-Agent":"ABC"}

    def make_url_lists(self):
        """
        生成下载列表
        :return: 下载列表
        """
        return [self.url_base.format(i * 50) for i in range(4)]

    def download_url(self,url_str):
        """
        使用requests get方法下载指定页面，并返回页面结果
        :param url_str: 下载链接
        :return: 下载结果
        """
        result = requests.get(url_str,headers = self.headers)
        return result.content

    def save_result(self,result,page_num):
        ""

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42847500

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
requests 用类封装一个基本爬虫（入门，仅供参考）

以百度贴吧为例（爬取lol吧）import requestsclass TiebaSpider: def __init__(self,tieba_name_crawl): &quot;&quot;&quot; 初始化必要参数,完成基础设置 &quot;&quot;&quot; self.tieba_name = tieba_name_crawl self.url_..
复制链接

扫一扫