Python 爬虫进阶（一）

最新推荐文章于 2024-05-01 04:48:11 发布

cuteSwift

最新推荐文章于 2024-05-01 04:48:11 发布

阅读量557

点赞数

分类专栏： Python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/cuteSwift/article/details/127145659

版权

Python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

Python 爬虫

随着数据爆炸式增长，信息变得越来越复杂，获取特定有效的数据显得越来越重要。

提示：以下是本篇文章正文内容，下面案例可供参考

一、爬虫是什么？

爬虫是一个自动运行的程序，用来从互联网上获取特定的数据，便于后期处理。

爬虫用于爬取数据，又称之为**数据采集程序**。

爬取的数据是公开的、非盈利的。

二、使用步骤

1.爬虫的架构

爬虫由5部分构成
调度器	URL管理器	网页下载器	网页解析器	应用程序（爬取数据）
处理中心，协调其余四个工作	主要通过内存、数据库、缓存数据库3种方式来实现对待爬取的URL地址和已爬取的URL地址，以及防止重复抓取和循环抓取URL。	通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib，包括需要登录、代理、和cookie，requests(第三方包)	将一个网页字符串进行解析，按照特定需求来提取信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式、html.parser（Python自带的）、beautifulsoup（第三方插件等	从网页中提取的数据组成的一个应用

2.爬虫与后端服务器的关系

爬虫使用网络请求库，相当于客户端请求， Web后端服务根据请求响应数据。

爬虫即向Web服务器发起HTTP请求，正确地接收响应数据，然后根据数据的类型（Content-Type）进行数据的解析及存储。

爬虫程序在发起请求前，一般进行伪造浏览器（User-Agent指定请求头），然后再向服务器发起请求，响应200的成功率高很多。