学习笔记(10):Python数据分析与挖掘-爬虫的套路有哪些？

最新推荐文章于 2023-12-11 14:24:55 发布

喵喵QQ李

最新推荐文章于 2023-12-11 14:24:55 发布

阅读量114

点赞数

分类专栏：研发管理文章标签：数据处理数据管理 RFM模型线性回归案例其他

本文链接：https://blog.csdn.net/qq_34461426/article/details/106497233

版权

研发管理专栏收录该内容

10 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu

网络爬虫的流程

1、终端向服务器发送请求，向对方服务器发送待抓取网站的链接URL（唯一）。

2、服务器返回响应（返回请求的内容是网页源代码）

3、终端进行数据存储：

利用正则表达式或解析法对源代码作清洗，并将目标数据存储到本地（txt、csv

、Excel等）或数据库（MySQL、SQL Server、MongoDB等）

使用到的包及函数

import requests  # 发送请求
import re  # 进行正则表达式
import bs4  #  进行解析

requests.get        #  基于URL，发送网络请求
re.findall          #  基于正则表达式，搜寻目标数据
bs4.BeautifulSoup    # 对HTML源代码做解析，便于目标数据的拆解