python 爬虫开发之贴吧小工具

最新推荐文章于 2024-04-03 09:50:08 发布

铁皮书生

最新推荐文章于 2024-04-03 09:50:08 发布

阅读量442

点赞数

分类专栏： Python 爬虫小工具文章标签：爬虫 Python 小工具

本文链接：https://blog.csdn.net/kk907528318/article/details/101036866

版权

本文介绍了一个Python爬虫小工具的开发过程，主要包括四个步骤：明确目标、爬取网页、数据筛选及处理。该工具专门用于抓取贴吧的标题、链接和作者信息，并能保存网页内容。请注意合法合规使用，如涉及侵权问题，请及时沟通。

摘要由CSDN通过智能技术生成

爬虫一共就四个主要步骤：
- 明确目标 (要知道准备在哪个范围或者网站去搜索)
- 爬 (将所有的网站的内容全部爬下来)
- 取 (去掉对我们没用处的数据)
- 处理数据（按照我们想要的方式存储和使用）

这个东西主要爬取得是 标题，链接，作者 ，并且网页也会爬取保存下来

# coding=utf-8

import requests

# 利用Xpath把待筛选的数据分组
from lxml import etree

# 可以利用正则表达式仔细筛选需要的数据
import re

import json


class TiebaSpider:
    def __init__(self, tieba_name, NumPage):
        '''
        :param tieba_name: 贴吧名
        :param NumPage: 爬取页面数量
        '''

        self.tieba_name = tieba_name
        self.NumPage = NumPage

        # 明确url规律，组成url
        self.start_url = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"

        # 此处尽量模仿浏览器请求头
        self.headers = {
   
            "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}

    def get_url_list(self):  # 1.构造ur