python 爬虫基础

[网络爬虫]
* 爬虫就是一个程序(Python Java C++ PHP C…)
* 自动(程序的特点)
* 按照一定的规则 采集数据规则 --> 数据采集
* 互联网的数据 HTML
[爬虫分类]
* 通用爬虫
1. 采集网站 放出爬虫 每30分钟全网扫描一次
2. 将 整个网页(静态的) 保存起来 文档库
3. 将保存的数据进行分析: 中文分词 去除噪音。。。建立 索引库
* 缺点
* 不能提供详细的数据 采集数据庞大 但是比较模糊 杂
* 不能针对具体客户需求提取数据
* 聚焦爬虫
* 之抓取与需求相关的数据
[Robots协议]
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
* 这个是协议 不是强制的 我们以后可以不遵循 但是如果可以建议遵循
* 该协议在根目录 /robots.txt
[HTTP协议]
HTTP协议是一种发布和接收HTML页面的方法。
HTTPS 更加安全 S --> SSL安全套接层 用来实现数据的加密 保证数据的安全传输
[请求与响应]
1. 输入URL https://www.baidu.com 的时候,浏览器发送一个 Request 请求 得到 Response 响应
2. 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。
3. 当所有的文件都下载成功后,网页会根据HTML语法结构,浏览器渲染所有东西 正常显示页面

[什么是URL]
统一资源定位符
用来定位网站资源的 唯一地址
[请求方法]
GET
* 一般显示在浏览器上面的就是GET请求
* 数据参数一般放在URL里面
POST
* 相反 不在浏览器地址栏上面显示的 但是页面会改变 都是POST请求
* 数据参数一般隐藏起来 非常适合密码账号等的传输(登陆)
* 但是有的网站和服务器为了做反爬虫机制,也经常会不按常理出牌,有可能一个应该使用get方法的请求就一定要改成post请求,这个要视情况而定。
[常用的请求报头]
告诉服务器你的详细身份
Cookie:发送给WEB服务器的Cookie内容,经常用来判断是否登陆了。
Host:客户端指定自己想访问的WEB服务器的域名/IP 地址和端口号。
Referer:告诉服务器该页面从哪个页面链接的。
User-Agent:浏览器表明自己的身份 (是哪种浏览器)

重定向
	一个网站资源 有两个名字 一个名字不用了 当你访问的时候 让你去找另一个网址
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值