立即学习:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu
网络爬虫
1、理解网络爬虫的三个流程
2、基础网络爬虫的套路
网络爬虫:是按照一定的规则,自动的抓取万维网信息的程序或者脚本,借助于网络爬虫的技术,基本上可以做到所见即所得
典型的应用:搜索引擎,今日头条、竞品分析等。
1、发送请求:向对方服务器发送待抓取的网站的链接URL
2、返回请求,在不发生意外的情况下,对方服务器返回的请求内容(网页代码)
3、数据存储,利用正则表达式或解析法对源代码做清洗,并将目标数据存储到本地(txt,csv)或者数据库中。
常用的三个包以及函数:
import requests 发送网络请求
import re
import bs4 解析源代码
requests.get --基于URL 发送网络请求
re.findall --基于正则表达式 搜寻目标数据
bs4.beautifulSoup --对HTML 源代码做解析,便于目标数据的拆解