Python爬虫:基础知识

http发送请求的方式
1、get请求
可带去参数给服务器,服务器返回完整的数据给我们
弊端:参数是明文,长度有限制

2、post请求
数据体没有限制
上传文件加密
服务器返回完整的数据给我们

3、put
4、delete
5、head

 

请求头信息:

Accept:文件格式
Accept-Encoding:编码格式
Connection:长链接keep-alive
Cookie:验证
Host:域名
Referer:标志从哪个页面跳转过来
User-Agent:存储了浏览器和用户的信息

 

爬虫
诸葛学院:互联网分析的平台
东湖大数据交易中心

爬虫价值:
1、买卖数据
2、数据分析 数据分析报告
3、流量(引流,打广告)
4、阿里指数、百度指数(百度搜索风云榜)

爬虫的合法性:
1、灰色产业
2、没有法律规定合不合法
3、是否可以爬取所有的数据
(1)普通用户权限 只能爬取非vip的视频
(2)vip客户权限可以爬取

重点:爬虫的工作原理
1、确认抓取目标的URL地址(自己找)
2、python的代码发送网络请求获取数据
3、解析获取到的数据(找新的目标url)
4、数据持久化

robots协议(是否允许其他爬虫)爬取某些内容
学习的是聚焦爬虫(不遵守robots协议)
爬虫和反爬虫作斗争,资源对等赢的永远是爬虫

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值