爬虫 1 ：简介

最新推荐文章于 2023-02-10 21:26:15 发布

无比性感的程序媛

最新推荐文章于 2023-02-10 21:26:15 发布

阅读量334

点赞数

本文链接：https://blog.csdn.net/panjunxiao/article/details/101263086

版权

1、搜索引擎(Search Engine)工作原理：
搜索引擎是指根据一定的策略、运用计算机程序从互联网上搜集信息，将信息处理后返回给检索相关信息的用户的系统。

2、通用爬虫
通用爬虫是搜索引擎的重要组成部分。
通用搜索引擎网络爬取步骤：
1.选取url爬取网页
2.数据存取。爬取到的数据存储的和普通用户看到的html一样，遇到重复内容多的停止爬取。
3.预处理。对爬取到的数据进行分析整理。
4.提供网站的排名检索。存入数据库时添加数据的浏览量，检索时可以根据排名检索。
在这里插入图片描述
3、通用搜索引擎的局限性
1.大多住是无用的。
2.不能把用户和用户的检索信息相关联。只获取到数据，无法获取到户检索的信息的用户。
3.不能处理图片、音频，视频等信息。
4.不支持语义查询。

4、聚焦爬虫
通用爬虫和聚焦爬虫的区别：
聚焦爬虫抓取时会对内容进行筛选，只抓取与需求相关的信息。

5、http协议
HTTP（应用层）是一个请求和响应的规范，它指定了客户端可以发送什么样的消息给服务端以及得到什么样的响应。

6、robots 网络爬虫排除标准
规定所有引擎什么能爬，什么不能爬

7、get 请求和post 请求的不同
get 请求：从服务端获取数据，？开头拼接在路由，不安全，请求的参数受限
post 请求：向服务端发送参数，在表单中，参数是实体部分不受限，安全。

8、响应的状态码
100 - 199 ：表示服务端成功接收部分请求，还需要客户端提交其余请求才能完成整个操作。
200 - 299 ：表示服务端已经成功处理请求并且完成整个操作。通常是200，请求并响应成功。
300~399：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)。
400~499：客户端的请求有错误，常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问，权限不够),405(请求的方法不能被用于请求相应的资源) 。
500~599：服务器端出现错误，常用500(请求未完成。服务器遇到不可预知的情况)。

9、爬虫可以解决的问题：
（1）解决冷启动问题。
（2）搜索引擎的根基：做搜索引擎少不了爬虫。
（3）建立知识图谱，帮助建立机器学习知识图谱。
（4）可以制作各种商品的比价软件，趋势分析。
（5）其他：比如分析淘宝上竞争对手的数据；分析微博的数据传递影响力；分析人与人之间的关系等。