- 爬虫一共就四个主要步骤:
- 明确目标 (要知道准备在哪个范围或者网站去搜索)
- 爬 (将所有的网站的内容全部爬下来)
- 取 (去掉对我们没用处的数据)
- 处理数据(按照我们想要的方式存储和使用)
这个东西主要爬取得是 标题,链接,作者 ,并且网页也会爬取保存下来
# coding=utf-8
import requests
# 利用Xpath把待筛选的数据分组
from lxml import etree
# 可以利用正则表达式仔细筛选需要的数据
import re
import json
class TiebaSpider:
def __init__(self, tieba_name, NumPage):
'''
:param tieba_name: 贴吧名
:param NumPage: 爬取页面数量
'''
self.tieba_name = tieba_name
self.NumPage = NumPage
# 明确url规律,组成url
self.start_url = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"
# 此处尽量模仿浏览器请求头
self.headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}
def get_url_list(self): # 1.构造ur