爬虫期末考试笔记(填空题)

  1. User-Agent表示用户代理,是HTTP协议中的一个字段
  2. URL地址由协议头, 服务器地址, 文件路径三部分组成
  3. 搜索引擎是通用爬虫最重要的应用领域

** 协议头指定使用的传输协议
** 服务器地址
指存放资源的服务器的主机名或者IP地址,其目的在于标识互联网上的唯一一台计算机,并通过这个地址找到这台计算机
** 端口**是在地址和冒号后面的数字,用于表示一台计算机上运行的不同程序
** IP地址用来给Internet上的每一台计算机编号

  1. 路径是由0个或者多个" / "符号隔开的字符串
  2. Accept-Encoding:指出浏览器可以接受的编码方式
  3. Accept-Charset:指出浏览器可以接受的字符编码
  4. Content-Type:指定POST请求中用来表示的内容类型
  5. 若想修改/添加Request对象中的headers可以使用add_header()方法
  6. urllib.request中的ProxyHandler()方法可以设置代理服务器

URLErroer产生的原因主要由以下几种:

  1. 没有连接网络
  2. 服务器连接失败
  3. 找不到指定的服务器
    HTTPError是URLError的子类
    响应码无法处理的请求内容就会抛出这个异常
  1. Request类的对象表示一个请求,一旦请求发送完毕,该请求包含的内容就被释放掉
  2. Session类的对象不会马上被释放掉
  3. Response类用于动态地响应客户端发送的请求
  4. XML和JSON是结构化数据
  5. [u4e00-u9fa5]匹配中文
  6. Xpath即为XML路径语言,通过"/"进行分隔
  7. 谓语都写在[]中
  8. JSON是一种轻量级的数据交换格式
  9. JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息
  10. 序列化(encoding):将一个Python对象编码转换为JSON字符串的过程
  11. 反序列化(decoding):将JSON字符串编码转换成Python对象的过程
  12. MySQL是一种开源的关系型数据库,使用最常用的数据库管理语言(SQL)进行数据库管理
  13. MongoDB是一个基于分布式文件存储的数据库,属于当前NoSQL数据库中比较热门的一种

数据库表示一个集合的物理容器
集合就是一组文档,类似于关系数据库中的表
文档是一组由键/值对组成的对象,对应着关系型数据库的行

  1. MySQL的基本组成单元是表, MongoDB的基本组成单元是集合
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值