【读书笔记】python3 网络爬虫开发实战(1)

本文介绍了Python3网络爬虫的基础知识,包括HTTP和HTTPS协议,网页结构,以及爬虫基本库requests的使用。讲解了GET和POST请求,正则表达式在数据提取中的应用,还提到了如何处理HTTPS证书问题、维护会话和使用代理。通过实例展示了如何抓取和解析网页数据。
摘要由CSDN通过智能技术生成

第一章 开发环境配置

略(遇到再补充)

第二章 爬虫基础

HTTP和HTTPS
URL的开头会有http和https,这是访问资源需要的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,他们都是协议类型。在爬虫中,我们抓取的页面通常就是 http 或 https 协议的。
HTTP 中文名叫做超文本传输协议,目前广泛使用的是 HTTP 1.1 版本。
HTTPS简单讲是 HTTP 的安全版,即 HTTP 下加入 SSL 层,简称为HTTPS。
而某些网站虽然使用了 HTTPS 协议还是会被浏览器提示不安全,例如 12306。这是因为 12306 的 CA 证书是中国铁道部自己颁发给自己的,而这个证书是不被官方机构认可的,所以这里证书验证就不会通过而提示这样的话,但是实际上它的数据传输依然是经过 SSL 加密的。我们如果要爬取这样的站点就需要设置忽略证书的选项,否则会提示 SSL 链接错误,在后文会进行详细说明。

网页基础
网页分为三大部分——HTML、CSS和JavaScript。
在这里插入图片描述
F12 右侧 HTML,整个网页由各种标签嵌套组合而成,这些标签定义的节点元素相互嵌套和组合形成复杂的层次关系,就形成了网页的框架。
左侧为CSS ,CSS 层叠样式表。样式指网页中文字大小、颜色、元素间距、排列等格式。它可以让页面变得更美观。
在这里插入图片描述

JavaScript,简称js 为网页提供实时,动态,交互的页面功能。js通常以单独的文件形式加载,后缀为js,通过script标签引入。
html、css、js 都是前端
asp、jsp、php… 是后端
在这里插入图片描述
页面的结构
新建一个文本文件,重命名为1.html。内容如下:

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>This is a test</title>
</head>
<body>
<div id="container">
	<div class="wrapper">
		<h2 class="text">hello world</h2>
		<p class="text">hello,this is a paragraph.</p>		
	</div>	
</div>
</body>
</html>

html的后缀有 .html 或htm
DOCTYPE html 定义文档类型

<html> html的开头 </html> 文件结尾
<head>文件头开始
<body>文件主体开开始

虽然html是门松散的语言,但是为了良好的编程习惯,平时使用时这些标签最好成对使用。(不允许交替出现)
meta标记 是头文件里面的,定义相关信息。
meta name=“……” content=“……” 这类类型可以帮助搜索引擎收录

在这里插入图片描述
在这里插入图片描述

第三章 基本库的使用

使用request

使用get()访问百度

import requests

r=requests.get('https://www.baidu.com/')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

在这里插入图片描述
我们使用get()方式得到一个 Response的对象。
<class ‘requests.models.Response’>
使用其他的请求类型
在这里插入图片描述
get请求
HTTP中最常见的请求之一就是GET请求

import requests

r=requests.get('http://www.httpbin.org/get')
print(r.text)

在这里插入图片描述
一般get请求带参数,可以使用下面两种方法:
在这里插入图片描述
或者:

import requests

data={
	'na
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值