爬虫——初识

1.爬虫目的:
 从网上拿到需要的有价值的数据:商业分析,生活助手
2.百度和谷歌:超级爬虫
3.浏览器和服务器之间:先请求,后响应。
 浏览器:解析数据
 客户端:需要网页 提取数据 存储数据
 浏览器工作原理:人、浏览器、服务器三者之间的交流过程
4.爬虫的四个步骤:
 获取数据 (向服务器发起请求,然后返回数据)
 解析数据(将服务器返回的数据解析成我们能读懂的数据)
 提取数据 (爬虫程序从中提取我们需要的数据)
 存储数据(将有用数据保存)
5.获取数据:
 requests库(pip install requests)(下载网页源代码、文本、图片、音频)
 import requests
 res = requests.get(‘URL’) 服务器返回结果是个Response对象,存储在变量res里。URL:数据所在网址
6.response对象的常用属性:
 response.status_code:检查请求是否成功。200是成功,403为禁止访问,503为服务不可用
 response.content:将response对象转换为二进制数据
 response.text:将response对象转换为字符串数据
 response.encoding:定义response对象的编码

7.robots协议:
 (网络爬虫排除标准)互联网爬虫的一项公认的道德规范
8.域名:
 https:// 后紧跟的
9.域名后缀含义:
 .cn 国内 .org 非赢利性组织 .gov 国家政府机构
 .net 从事互联网服务的机构 .com 商业机构
10.user-agent:爬虫类型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值