【读书笔记】python3 网络爬虫开发实战（1）

最新推荐文章于 2024-08-16 17:56:34 发布

_小飒

最新推荐文章于 2024-08-16 17:56:34 发布

阅读量533

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/Yjlay/article/details/108747910

版权

本文介绍了Python3网络爬虫的基础知识，包括HTTP和HTTPS协议，网页结构，以及爬虫基本库requests的使用。讲解了GET和POST请求，正则表达式在数据提取中的应用，还提到了如何处理HTTPS证书问题、维护会话和使用代理。通过实例展示了如何抓取和解析网页数据。

摘要由CSDN通过智能技术生成

第一章开发环境配置

略（遇到再补充）

第二章爬虫基础

HTTP和HTTPS
URL的开头会有http和https，这是访问资源需要的协议类型。有时，我们还会看到ftp、sftp、smb开头的URL，他们都是协议类型。在爬虫中，我们抓取的页面通常就是 http 或 https 协议的。
HTTP 中文名叫做超文本传输协议，目前广泛使用的是 HTTP 1.1 版本。
HTTPS简单讲是 HTTP 的安全版，即 HTTP 下加入 SSL 层，简称为HTTPS。
而某些网站虽然使用了 HTTPS 协议还是会被浏览器提示不安全，例如 12306。这是因为 12306 的 CA 证书是中国铁道部自己颁发给自己的，而这个证书是不被官方机构认可的，所以这里证书验证就不会通过而提示这样的话，但是实际上它的数据传输依然是经过 SSL 加密的。我们如果要爬取这样的站点就需要设置忽略证书的选项，否则会提示 SSL 链接错误，在后文会进行详细说明。

网页基础
网页分为三大部分——HTML、CSS和JavaScript。
在这里插入图片描述
F12 右侧 HTML，整个网页由各种标签嵌套组合而成，这些标签定义的节点元素相互嵌套和组合形成复杂的层次关系，就形成了网页的框架。
左侧为CSS ，CSS 层叠样式表。样式指网页中文字大小、颜色、元素间距、排列等格式。它可以让页面变得更美观。
在这里插入图片描述

JavaScript，简称js 为网页提供实时，动态，交互的页面功能。js通常以单独的文件形式加载，后缀为js，通过script标签引入。
html、css、js 都是前端
asp、jsp、php… 是后端
在这里插入图片描述
页面的结构
新建一个文本文件，重命名为1.html。内容如下：

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>This is a test</title>
</head>
<body>
<div id="container">
	<div class="wrapper">
		<h2 class="text">hello world</h2>
		<p class="text">hello,this is a paragraph.</p>		
	</div>	
</div>
</body>
</html>

html的后缀有 .html 或htm
DOCTYPE html 定义文档类型

<html> html的开头 </html> 文件结尾
<head>文件头开始
<body>文件主体开开始

虽然html是门松散的语言，但是为了良好的编程习惯，平时使用时这些标签最好成对使用。（不允许交替出现）
meta标记是头文件里面的，定义相关信息。
meta name=“……” content=“……” 这类类型可以帮助搜索引擎收录

在这里插入图片描述

第三章基本库的使用

使用request

使用get()访问百度

import requests

r=requests.get('https://www.baidu.com/')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

在这里插入图片描述
我们使用get()方式得到一个 Response的对象。
<class ‘requests.models.Response’>
使用其他的请求类型

get请求
HTTP中最常见的请求之一就是GET请求

import requests

r=requests.get('http://www.httpbin.org/get')
print(r.text)

在这里插入图片描述
一般get请求带参数，可以使用下面两种方法：

或者：

import requests

data={
	'na

最低0.47元/天解锁文章

_小飒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【读书笔记】python3 网络爬虫开发实战（1）

第一章 开发环境配置

第二章 爬虫基础

第三章 基本库的使用

使用request

第一章开发环境配置

第二章爬虫基础

第三章基本库的使用