爬虫-认识爬虫

最新推荐文章于 2024-07-18 12:57:54 发布

秦宋1

最新推荐文章于 2024-07-18 12:57:54 发布

阅读量707

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_58124010/article/details/130728879

版权

我是张晨，一转眼，我在新课已经学习了很长一段时间。回顾这几个月的时间，我收获了很多知识。这里是我的一点学习笔记。
一、爬虫的基础知识

1.什么是爬虫？

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

简单一句话就是代替人去模拟浏览器进行网页操作。

优点：速度快获取一些普通人获取不到的数据

2.为什么需要爬虫？

需要使用爬虫为我们提供大量的数据

3.python做爬虫的优势

PHP : 对多线程、异步支持不太好
Java : 代码量大，代码笨重
C/C++ : 代码量大，难以编写
Python : 支持模块多、代码简介、开发效率高 (scrapy框架)

注：
爬虫不是万能的爬虫获取vip视频和音乐有vip的cookie
为什么爬虫使用python
爬虫往往只需要一些核心部分的代码
需要高效的开放爬虫的项目
4.爬虫的分类

普通爬虫获取整个页面的数据；缺点：不需要的数据太多了
聚焦（局部）爬虫从整个页面的数据中获取重要的部分数据；从页面中筛选出需要的数据
增量爬虫获取网页中更新后的新数据

5.爬虫的合法性
技术本身没有对错，法律上也是没有禁止的
1>.不去获取个人隐私信息
2>.网站的机密文件国家机密
3>.不要影响网站的服务器，不能攻击别人服务器
爬虫获取数据
反爬虫通过指定策略来防止爬虫获取数据
反反爬虫绕过或者破解策略来获取数据
二、了解网络协议
1.什么是协议？
计算机达成约定，来进行相互直接的通信
访问的网页数据是通过协议传输到其他电脑
2.什么是http协议？
超文本/标记语言/html 传输协议
3.爬虫获取数据的原理
豆瓣页面 url
通过链接请求豆瓣
需要豆瓣的页面
响应返回文本
4.HTTP特点

http协议支持客户端/服务端模式，也是一种请求/响应模式的协议。
简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。
灵活：HTTP允许传输任意类型的数据对象。传输的类型由Content-Type加以标记。
无连接：限制每次连接只处理一个请求。服务器处理完请求，并收到客户的应答后，即断开连接，但是却不利于客户端与服务器保持会话连接，为了弥补这种不足，产生了两项记录http状态的技术，一个叫做Cookie,一个叫做Session。
无状态：无状态是指协议对于事务处理没有记忆，后续处理需要前面的信息，则必须重传。

5.HTTP请求与相应

HTTP通信由两部分组成：客户端请求消息与服务器响应消息

当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
当我们在浏览器输入URL 的时候，浏览器发送一个Request请求去获取URL的html文件，服务器把Response文件对象发送回给浏览器。
浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

6.HTTP报文组成

HTTP报文大致分为报文首部和报文主体两块，中间用空行来划分。通常，不一定有报文主体。

报文首部：包含服务器或客户端需处理的请求或响应的内容及属性。
报文主体：是应该被发送的数据。

请求报文首部的结构：

示例：查看Request Headers

GET / HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit