【学习笔记】北京理工大学-Python网络爬虫与信息提取

在这里插入图片描述
掌握定向网络数据爬取和网页解析基本能力

一.Requests库

在这里插入图片描述

Requests库的7个主要方法

在这里插入图片描述

Response对象的属性

在这里插入图片描述
在这里插入图片描述

☆爬取网页的通用代码框架

在这里插入图片描述

HTTP协议

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
cookies 英[ˈkʊkiz]
n. 曲奇饼; 精明强干的人; 坚强的人; 网络饼干(网络或互联网使用者发给中央服务器信息的计算机文件);

proxy , proxies:英[ˈprɒksiz]
n. 代理权; 代表权; 代理人; 受托人; 代表; (测算用的)代替物,指标;

在这里插入图片描述
最常用的是get方法,对于内容大的用head方法

网络爬虫的尺寸

在这里插入图片描述

如何限制网络爬虫?


在这里插入图片描述

实例代码


二.Beautiful Soup库

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
等价↑
BeautifulSoup对应一个 HTML/XML文档 的全部内容

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

prettify

在这里插入图片描述

信息提取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三.Re库(正则表达式)

在这里插入图片描述
正则表达式:表示一组字符串的特征

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
主要应用在字符串匹配中

正则表达式常用操作符

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Re库

在这里插入图片描述

在这里插入图片描述

substitute 英[ˈsʌbstɪtjuːt] 美[ˈsʌbstɪtuːt]
n. 代替者; 代替物; 代用品; 替补(运动员);
v. (以…)代替; 取代;

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四.Scrapy爬虫框架

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

requests vs Scrapy

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Scrapy爬虫常用命令

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值