python 爬虫基础

最新推荐文章于 2024-07-12 19:06:42 发布

1>>1

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量315

点赞数

文章标签： python 爬虫基础

本文链接：https://blog.csdn.net/qq_37557625/article/details/100938366

版权

[网络爬虫]
* 爬虫就是一个程序(Python Java C++ PHP C…)
* 自动(程序的特点)
* 按照一定的规则采集数据规则 --> 数据采集
* 互联网的数据 HTML
[爬虫分类]
* 通用爬虫
1. 采集网站放出爬虫每30分钟全网扫描一次
2. 将整个网页(静态的) 保存起来文档库
3. 将保存的数据进行分析：中文分词去除噪音。。。建立索引库
* 缺点
* 不能提供详细的数据采集数据庞大但是比较模糊杂
* 不能针对具体客户需求提取数据
* 聚焦爬虫
* 之抓取与需求相关的数据
[Robots协议]
网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取
* 这个是协议不是强制的我们以后可以不遵循但是如果可以建议遵循
* 该协议在根目录 /robots.txt
[HTTP协议]
HTTP协议是一种发布和接收HTML页面的方法。
HTTPS 更加安全 S --> SSL安全套接层用来实现数据的加密保证数据的安全传输
[请求与响应]
1. 输入URL https://www.baidu.com 的时候，浏览器发送一个 Request 请求得到 Response 响应
2. 浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
3. 当所有的文件都下载成功后，网页会根据HTML语法结构，浏览器渲染所有东西正常显示页面

[什么是URL]
统一资源定位符
用来定位网站资源的唯一地址
[请求方法]
GET
* 一般显示在浏览器上面的就是GET请求
* 数据参数一般放在URL里面
POST
* 相反不在浏览器地址栏上面显示的但是页面会改变都是POST请求
* 数据参数一般隐藏起来非常适合密码账号等的传输(登陆)
* 但是有的网站和服务器为了做反爬虫机制，也经常会不按常理出牌，有可能一个应该使用get方法的请求就一定要改成post请求，这个要视情况而定。
[常用的请求报头]
告诉服务器你的详细身份
Cookie：发送给WEB服务器的Cookie内容，经常用来判断是否登陆了。
Host：客户端指定自己想访问的WEB服务器的域名/IP 地址和端口号。
Referer：告诉服务器该页面从哪个页面链接的。
User-Agent：浏览器表明自己的身份 (是哪种浏览器)

重定向
	一个网站资源 有两个名字 一个名字不用了 当你访问的时候 让你去找另一个网址

1>>1

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫基础

python 爬虫基础网络爬虫爬虫分类 robots协议
复制链接

扫一扫

python 爬虫基础

“相关推荐”对你有帮助么？