立即学习:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu
网络爬虫的流程
1、终端向服务器发送请求,向对方服务器发送待抓取网站的链接URL(唯一)。
2、服务器返回响应(返回请求的内容是网页源代码)
3、终端进行数据存储:
利用正则表达式或解析法对源代码作清洗,并将目标数据存储到本地(txt、csv
、Excel等)或数据库(MySQL、SQL Server、MongoDB等)
使用到的包及函数
import requests # 发送请求
import re # 进行正则表达式
import bs4 # 进行解析
requests.get # 基于URL,发送网络请求
re.findall # 基于正则表达式,搜寻目标数据
bs4.BeautifulSoup # 对HTML源代码做解析,便于目标数据的拆解