爬虫笔记
文章平均质量分 96
涛涛北京
结构建设
展开
-
【爬虫】四、基础爬虫方法实战
一、通用代码框架-爬取百度首页import requestsurl = "https://www.baidu.com"def getHtmlText(url): try: response = requests.get(url) response.raise_for_status() print(response.encoding, ...原创 2020-01-31 17:42:38 · 1300 阅读 · 0 评论 -
【爬虫】二、request和response
Request库本节目标:掌握定向网页爬取和解析的基本能力简单的概括Request库的作用:把网站看作是一个对象,发送一个request请求,这个请求可以用一些参数修饰(例如定制头部),返回一个response对象,接着可以用访问属性的方式获取网站的头部信息、编码格式、网页内容等,response对象是后续网页解析的基础。一、Requests库的主要方法-get():1、格式2、R...原创 2020-01-27 00:02:29 · 351 阅读 · 0 评论 -
【爬虫】一、BeautifulSoup库
文档内容为本人观看北京理工大学嵩天老师公开课的听课笔记与实践总结,图片为从该课程下载资料的截图,感谢嵩老师。一、BeautifulSoup库入门1、理解该库的作用为:定向网络的数据爬取与网页解析。BS类是对Tag类的继承。提供了html文档到python对象的映射。可以简单地理解为BS将html封装成一个标签集合,我们可以通过标签名字来访问其包含的标签对象,例如.a、.body等,若相同...原创 2019-08-23 22:25:58 · 1365 阅读 · 0 评论 -
【爬虫】三、正则表达式-re入门
一、概念形式语言,从特征的角度对语言进行描述。二、语法和基本操作符re库也可以采用string类型表示正则表达式,但更繁琐例如:‘[1‐9]\\d{5}’‘\\d{3}‐\\d{8}|\\d{4}‐\\d{7}’建议:当正则表达式包含转义符时,使用raw string例如:re表达式内涵^[A‐Za‐z]+$由26个字母组成的字符串^[A‐Za‐z0...原创 2019-08-25 16:10:21 · 211 阅读 · 0 评论