- User-Agent表示用户代理,是HTTP协议中的一个字段
- URL地址由协议头, 服务器地址, 文件路径三部分组成
- 搜索引擎是通用爬虫最重要的应用领域
** 协议头指定使用的传输协议
** 服务器地址指存放资源的服务器的主机名或者IP地址,其目的在于标识互联网上的唯一一台计算机,并通过这个地址找到这台计算机
** 端口**是在地址和冒号后面的数字,用于表示一台计算机上运行的不同程序
** IP地址用来给Internet上的每一台计算机编号
- 路径是由0个或者多个" / "符号隔开的字符串
- Accept-Encoding:指出浏览器可以接受的编码方式
- Accept-Charset:指出浏览器可以接受的字符编码
- Content-Type:指定POST请求中用来表示的内容类型
- 若想修改/添加Request对象中的headers可以使用add_header()方法
- urllib.request中的ProxyHandler()方法可以设置代理服务器
URLErroer产生的原因主要由以下几种:
- 没有连接网络
- 服务器连接失败
- 找不到指定的服务器
HTTPError是URLError的子类
响应码无法处理的请求内容就会抛出这个异常
- Request类的对象表示一个请求,一旦请求发送完毕,该请求包含的内容就被释放掉
- Session类的对象不会马上被释放掉
- Response类用于动态地响应客户端发送的请求
- XML和JSON是结构化数据
- [u4e00-u9fa5]匹配中文
- Xpath即为XML路径语言,通过"/"进行分隔
- 谓语都写在[]中
- JSON是一种轻量级的数据交换格式
- JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息
- 序列化(encoding):将一个Python对象编码转换为JSON字符串的过程
- 反序列化(decoding):将JSON字符串编码转换成Python对象的过程
- MySQL是一种开源的关系型数据库,使用最常用的数据库管理语言(SQL)进行数据库管理
- MongoDB是一个基于分布式文件存储的数据库,属于当前NoSQL数据库中比较热门的一种
数据库表示一个集合的物理容器
集合就是一组文档,类似于关系数据库中的表
文档是一组由键/值对组成的对象,对应着关系型数据库的行
- MySQL的基本组成单元是表, MongoDB的基本组成单元是集合