爬虫基础理论知识（一）

最新推荐文章于 2024-06-26 20:53:48 发布

某某某的洛先生

最新推荐文章于 2024-06-26 20:53:48 发布

阅读量682

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cc576795555/article/details/90544798

版权

本文介绍了爬虫的基础知识，包括爬虫的背景、定义、网页的URL特性、爬虫基本步骤和数据用途。讲解了爬虫的分类，如通用爬虫和聚焦爬虫，并涉及到七层协议、HTTP协议、URL组成、请求方式及其区别。同时提到了常见的请求头参数和响应状态码，以及爬虫可能涉及的编程语言。

摘要由CSDN通过智能技术生成

一、爬虫的背景知识

企业产生的数据：大的公司会根据用户的行为记录数据，数据会被大公司利用，用来做数据的分析
数据平台的数据：数据公司将数据包装成API形式，贩卖数据
政府和机构的数据：政府公开的一些数据
数据咨询平台的数据：为企业和公共机构提供有关战略、组织、运营和技术方面的咨询

二、什么是爬虫？

就是一段自动抓取互联网数据的程序或脚本

三、网页的三大特性

1.每一个网页都有自己唯一的URL地址（统一资源定位符）
2.网页都是通过HTML（超文本）来展示数据的
3.网页是通过HTTP/HTTPS（超文本传输协议）来传输html的

四、爬虫最基本的步骤

1.寻找目标url，发起请求
2.获取请求的响应结果，分析响应结果
3.从响应结果中提取数据
- a.第一部分，从网页中提取的目标数据
- b.如果存在新的url地址，则提取，继续发起请求
4.所有的目标url全部请求完毕，爬虫结束

五、数据的用途

1.可以爬取数据，写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析（知乎数据冰山专栏）

六、课外知识

做爬虫的语言有&

最低0.47元/天解锁文章

某某某的洛先生

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础理论知识（一）

一、爬虫的背景知识企业产生的数据：大的公司会根据用户的行为记录数据，数据会被大公司利用，用来做数据的分析数据平台的数据：数据公司将数据包装成API形式，贩卖数据政府和机构的数据：政府公开的一些数据数据咨询平台的数据：为企业和公共机构提供有关战略、组织、运营和技术方面的咨询二、什么是爬虫？就是一段自动抓取互联网数据的程序或脚本三、网页的三大特性1.每一个网页都有自己唯一的U...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。