当你学会了这些，轻轻松松搞定爬虫！

程序媛小本

已于 2024-01-09 19:46:30 修改

阅读量478

点赞数

分类专栏：爬虫 python 文章标签：爬虫 python 开发语言人工智能学习

于 2023-01-28 16:18:40 首次发布

本文链接：https://blog.csdn.net/m0_59236127/article/details/128778940

版权

python 同时被 2 个专栏收录

338 篇文章 9 订阅

订阅专栏

爬虫

237 篇文章 5 订阅

订阅专栏

什么是 “爬虫”？
用 Python 写 “爬虫” 有哪些方便的库：
爬虫需要掌握哪些知识
进阶爬虫
一些常见的限制方式
总结

什么是 “爬虫”？

简单来说，写一个从 web 上获取需要数据并按规定格式存储的程序就叫爬虫；

爬虫理论上步骤很简单，第一步获取 html 源码，第二步分析 html 并拿到数据。但实际操作，老麻烦了

用 Python 写 “爬虫” 有哪些方便的库：
常用网络请求库：

requests
urllib
urllib2
urllib 和 urllib2 是 Python 自带模块，requests 是第三方库

常用解析库和爬虫框架：

BeautifulSoup
lxml
HTMLParser
selenium
Scrapy

HTMLParser 是 Python 自带模块；

BeautifulSoup 可以将 html 解析成 Python 语法对象，直接操作对象会非常方便；
lxml 可以解析 xml 和 html 标签语言，优点是速度快；
selenium 调用浏览器的 driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码；
Scrapy 很强大且有名的爬虫框架，可以轻松满足简单网站的爬取；

爬虫需要掌握哪些知识

1）超文本传输协议 HTTP：

HTTP 协议定义了浏览器怎样向万维网服务器请求万维网文档，以及服务器怎样把文档传送给浏览器。常用的 HTTP 方法有 GET、POST、PUT、DELETE。

2）统一资源定位符 URL：

URL 是用来表示从因特网上得到的资源位置和访问这些资源的方法。URL 给资源的位置提供一种抽象的识别方法，并用这种方法给资源定位。只要能够对资源定位，系统就可以对资源进行各种操作，如存取、更新、替换和查找其属性。URL 相当于一个文件名在网络范围的扩展。

3）超文本标记语言 HTTP：

HTML 指的是超文本标记语言，是使用标记标签来描述网页的。HTML 文档包含 HTML 标签和纯文本，也称为网页。Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用标签来解释页面的内容。简而言之就是你要懂点前端语言，这样描述更直观贴切。

4）浏览器调试功能：

学爬虫就是抓包，对请求和响应进行分析，用代码来模拟

进阶爬虫

熟练了基本爬虫之后，你会想着获取更多的数据，抓取更难的网站，然后你就会发现获取数据并不简单，而且现在反爬机制也非常的多。

爬取知乎、简书，需要登录并将下次的请求时将 sessions 带上，保持登录姿态；
爬取亚马逊、京东、天猫等商品信息，由于信息量大、反爬机制完善，需要分布式【这里就难了】爬取，以及不断切换 USER_AGENT 和代理IP；
滑动或下拉加载和同一 url 加载不同数据时，涉及 ajax 的异步加载。这里可以有简单的返回 html 代码、或者 json数据，也可能有更变态的返回 js 代码然后用浏览器执行，逻辑上挺简单、但是写代码那叫一个苦哇；
还有点是需要面对的，验证码识别。这个有专门解析验证码的平台… 不属于爬虫范畴了，自己处理需要更多的数据分析知识。
数据储存，关系数据库和非关系数据库的选择和使用，设计防冗余数据库表格，去重。大量数据存储数据库，会变得很头疼，
编码解码问题，数据的存储涉及一个格式的问题，python2 或者 3 也都会涉及编码问题。另外网页结构的不规范性，编码格式的不同很容易触发编码异常问题。下图一个简单的转码规则

一些常见的限制方式

Basic Auth：一般会有用户授权的限制，会在 headers 的 Autheration 字段里要求加入；
Referer：通常是在访问链接时，必须要带上 Referer 字段，服务器会进行验证，例如抓取京东的评论；
User-Agent：会要求真是的设备，如果不加会用编程语言包里自有 User-Agent，可以被辨别出来；
Cookie：一般在用户登录或者某些操作后，服务端会在返回包中包含 Cookie 信息要求浏览器设置 Cookie，没有 Cookie，会很容易被辨别出来是伪造请求；也有本地通过 JS，根据服务端返回的某个信息进行处理生成的加密信息，设置在 Cookie 里面；
Gzip：请求 headers 里面带了 gzip，返回有时候会是 gzip 压缩，需要解压；
JavaScript 加密操作：一般都是在请求的数据包内容里面会包含一些被 javascript 进行加密限制的信息，例如新浪微博会进行SHA1 和 RSA 加密，之前是两次 SHA1 加密，然后发送的密码和用户名都会被加密；
网站自定义其他字段：因为 http 的 headers可以自定义地段，所以第三方可能会加入了一些自定义的字段名称或者字段值，这也是需要注意的。
真实的请求过程中，其实不止上面某一种限制，可能是几种限制组合在一次，比如如果是类似 RSA 加密的话，可能先请求服务器得到 Cookie，然后再带着 Cookie 去请求服务器拿到公钥，然后再用 js 进行加密，再发送数据到服务器。所以弄清楚这其中的原理，并且耐心分析很重要。