前言
小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站。
本堂课使用正则表达式对文本类的数据进行提取,正则表达式是数据提取的通用方法。
环境介绍:
python 3.6
pycharm
requests
re
json
爬虫的一般思路
1、确定爬取的url路径,headers参数
2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据
3、解析数据 -- re模块:提供全部的正则表达式功能
4、保存数据 -- 保存json格式的数据
完整步骤:
1、安装库和导入模块
如果没有安装库的,可以WIN+R,然后输入cmd,最后输入代码安装
pip install requests
安装完成后可以输入代码查看你安装过所有的库:
pip list
导入模块
import requests
import re import json
2、确定爬取的url路径,headers参数