python 爬虫开发之贴吧小工具

  • 爬虫一共就四个主要步骤:
    • 明确目标 (要知道准备在哪个范围或者网站去搜索)
    • 爬 (将所有的网站的内容全部爬下来)
    • 取 (去掉对我们没用处的数据)
    • 处理数据(按照我们想要的方式存储和使用)

这个东西主要爬取得是 标题,链接,作者 ,并且网页也会爬取保存下来

# coding=utf-8

import requests

# 利用Xpath把待筛选的数据分组
from lxml import etree

# 可以利用正则表达式仔细筛选需要的数据
import re

import json


class TiebaSpider:
    def __init__(self, tieba_name, NumPage):
        '''
        :param tieba_name: 贴吧名
        :param NumPage: 爬取页面数量
        '''

        self.tieba_name = tieba_name
        self.NumPage = NumPage

        # 明确url规律,组成url
        self.start_url = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"

        # 此处尽量模仿浏览器请求头
        self.headers = {
   
            "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}

    def get_url_list(self):  # 1.构造ur
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值