Python爬虫_「已注销」的博客-CSDN博客

Python爬虫

更新中

Python爬虫教程（#学会基础再来看），从认知到精通。 #注意一下，我上传频率不一定。

文章数：16 文章阅读量：13224 文章收藏量：6

作者: 「已注销」

这个作者很懒，什么都没留下…

展开

html标签

学习目标：初步了解html标签，再用正则寻找标签。上次我们了解了html，但是我们要利用html，必须对html标签足够的认识。双标签一般以以下格式出现：<标签名参数名="参数">文本</标签名> 单标签则是这样：<标签名参数名="参数">因此，我们可以得出结论：标签都是有一定格式和规律，所以，我们就可以用正则表达式寻找html标签。我们准备好示例html代码：<p>text</p&gt...

原创 2022-08-10 13:17:48 · 126 阅读 · 0 评论
认识html

学习目标：认识html，并了解其用处。在之前的文章中，我们讲过html，今天我们来正式认识它。一、html有什么用作为构建网页的语言，html中有很多对爬虫有用的信息，所以我们需要了解它。二、知道html是什么 Html，原名超文本标记语言，是适用于构件液面的一种web前端语言，我们看到的页面都是由html的代码写成的，而我们爬虫得到的网页源码也是html。三、我们怎么利用html 这就要从html的结构说起：html主要由两部分组成：标签和文本，标.........

原创 2022-08-07 15:35:58 · 159 阅读 · 3 评论
获取、使用json

学习目标：获取json格式的数据，并学会使用它。上次我们认识了json，并提到了json出现的三种格式，今天我们来获取json数据。一、单独文件这种文件其实很简单，只要用content或text来获取。但是要让它转化成Python的格式，就要用到json模块。import jsonj=json.loads(r)第1行，我们打过了json模块；第2行的loads是为了将json的数据，转化成Python可以处理的数据。(至于这个r，就是json文件的文本)...

原创 2022-07-17 19:38:17 · 875 阅读 · 0 评论
获取网页源代码

之前的学习中，我们学会了请求网页，并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>，而不可以得到其他信息。今天我们来学习两个简单的方法，使我们可以得到网页的源代码。一、 Test 我们先来看一个实例：import requestsr=requests.get(url="https://www.Python.org").textprint(r)运行它以后，我们可以看到很多的html代码，至于什么是 html，我们......

原创 2022-06-30 10:18:52 · 3125 阅读 · 0 评论
发送请求——从requests入手

学习目标：学会安装requests，并且简单了解requests。上一次我们基本了解了爬虫，这次我们开始正式的学习。首先爬虫请求需要一个叫requests的模块，它主要用于请求数据。 requests因为不是标准库，所以需要额外安装，我们需要用到终端的pip命令，它是专门用来管理模块的。首先我们打开终端，输入：Python -m pip install --user requests这个命令可以用来安装requests模块。现在来介绍r............

原创 2022-06-23 18:01:38 · 167 阅读 · 0 评论
认识GET和POST

学习目标：认识get和post两个类，并知道GET和POST请求的区别和用途。上次我们安装并了解了requests，现在我们开始使用它。首先requests里面有非常重要的两个类，他们分别是get和post，get和post都是用于请求的，但根据不同的需求需要使用不同的方法。一、 GET和POST的区别其实get和post分别是两种不同的请求方式，但它们的原理和性质不同，接下来我们来了解一下。（1）.GET请求我们来打一个比较简...

原创 2022-06-24 18:06:49 · 522 阅读 · 0 评论
发送一个请求

学习目标：用get和post分别发送一个请求，获取状态码。上一次我们认识的get和post，并简单讲了它们的用法，这次我们开始正式使用它们。首先我们导入requests模块：import requests 接下来我们开始定义一些基本的信息：url="https://www.baidu.com/"在这里我们只定义了URL（链接地址），写入了一个叫做url的变量里。接下来开始使用get和post：r1=requests.get(ur......

原创 2022-06-25 13:41:57 · 131 阅读 · 0 评论
解决请求方式的问题

学习目标：解决不知道用get方法还是post方法的问题。上次我们使用的get和post，但是遇到了一个问题，不知道该用get好还是post好，这次我们来用三种办法解决它。一、试一试这是一种最简单的方法，就是首先你用get试一下，如果不行就换post，就这么简单。二、推测法这就是你逻辑思维的问题了，我们首先来想一想，如果没有必要的情况下，服务器肯定会用get，而在需要加密或者大数据的时候，会用post。所以按照这样的思维，一般情况下可以找到是用get还是po..........

原创 2022-06-26 10:25:33 · 163 阅读 · 0 评论
从浏览器中获取headers

学习目标：学会在浏览器开发者选项中提取请求头。上次我们学会了怎样传入headers，但不知道应该传些什么，这次我们来学会从浏览器中提取它。我们打开开发者选项的Network：我们在里面找到request headers，这里面就是很多的头部信息，现在我们暂时用到的应该就是user agent他可以告诉浏览器，你是用什么软件向他发出的请求，把它改掉以后服务器就以为这是一个浏览器。我们将它复制下来，传入，这样一般就可以得到所有数据，以后我们来讲一下其他的东西分别是什......

原创 2022-07-05 18:19:10 · 4714 阅读 · 1 评论
请求二进制文本并写入文件

学习目标：学会如何请求二进制的数据，并将它们写入文件。之前我们解决了headers的问题，可以得到文本的所有内容了，这次我们来请求一种特殊的文本——二进制。只要懂点电脑的人，对二进制肯定很熟悉，一般的音频视频文件，都是用二进制文本构成的。所以为了请求到这些文件，我们必须请求到它的二进制信息。首先我们尝试用老办法来解决一下这些二进制的信息。import requestsurl="""一个二进制文件的URL"""headers="""请求头此处不展示"""r........

原创 2022-07-06 07:37:15 · 211 阅读 · 0 评论
让你便利的信息——cookie

学习目标：认识并传入cookie。学习json以后，我们将学习另一种信息——cookie。如果你将请求来多代码写入一个html（具体后面会讲）格式的文件中，你打开后的未登录的页面；而你用浏览器来打开，一般是登录后的。其实是因为每次完成登录后，服务器会发给你一个cookie，其中包含了你的帐号、密码，当你再次打开时会自动将cookie发出去，就得到了登录后的页面。我们来找一下cookie，先打开开发者选项：我们找到headers，这边有很多的参数，有的（大...

原创 2022-07-20 18:30:00 · 112 阅读 · 0 评论
url中的秘密

学习目标：了解url的规律，并学会运用。一、开头开头一般表示网页的类型，如：http://表示没有ssl的网页而https://表示有；file://表示一个html文件等。二、域名和端口 url开头之后一般以xxx.xxxx.xxx的形式出现，以.隔开两段，段数不一，一般后两段为网络域名，如是三段及以上，前几段表示某个端口。还有一种是以xxx.xxx.xxx.xxx:xxxx出现的，在:前面是服务ip之后则是端口号。三、路径其实网站服务器的虚拟环境也...........

原创 2022-07-21 10:40:10 · 153 阅读 · 0 评论
了解headers

学习目标：了解headers中的user-agent、cookies和referer。上次我们了解了url，这次来了解headers中最重要的user-agent、cookies和referer。一、user-agent 这是最简单的一个，我们之前讲过，服务器为了确认发出请求的是什么，一般会检查user-agent，所以它十分重要。二、cookies 这个我们之前也讲过，cookies是用于传输参数的，cookie不同，结果就不同。三、referer...

原创 2022-07-30 14:16:19 · 256 阅读 · 5 评论
认识json

学习目标：认识json。之前我们请求了网页的文本信息，今天我们来认识一种新的类型的数据——json。我们了解一下json：这样讲大家可能看不懂，我来补充一下。在网页的源码中，一般有三种代码，分别是html、css、javascript（js）。html用于构建页面，css用于对页面修饰，而javascript则用于运行一些操作。我们知道，在Python中要存储信息，会用到int、float、list、dictionary等来存储；而javascript也一样有很多数据........

原创 2022-07-14 15:08:36 · 196 阅读 · 0 评论
认识headers

学习目标：了解并学会传入headers。上次我们在写代码时遇到了一个问题，就是得到的文本只有一点点。这是因为服务器为了反爬，实施的一种措施。首先我们要了解一下headers，他就是我们在请求过程当中传入的头部信息，这种浏览器可以分辨你是什么身份。我们首先看一下默认传入的headers。print(r.headers)我们就直接在上次的代码下面加上这个，从得到的信息里面你可以看到，requests直接告诉了服务器这是一个爬虫。所以我们要改一下headers。h...

原创 2022-07-04 18:53:12 · 1840 阅读 · 0 评论
爬虫的基本定义与原理

你听说过爬虫吗？从今天开始我们一起学习Python爬虫吧！一、爬虫的定义你可能不知道，其实你现在就在爬虫，原来爬虫分为通用爬虫和聚焦爬虫，通用爬虫就是我们平常的上网，而我们Python则是聚焦爬虫。爬虫主要是通过我们的电脑向服务器发送请求，然后服务器返回数据给我们。二、爬虫的原理通用爬虫一般是我们电脑在打开网站时，我们的电脑向服务器发送一个请求，然后服务器发送给我们页面代码，在我们的浏览器上运行。我们每次完成一个操作就会重新向服务器发送一个相应的请求。以此类推交换信息........

原创 2022-06-19 09:34:50 · 474 阅读 · 0 评论

Python爬虫

作者: 「已注销」

html标签

认识html

获取、使用json

获取网页源代码

发送请求——从requests入手

认识GET和POST

发送一个请求

解决请求方式的问题

从浏览器中获取headers

请求二进制文本并写入文件

让你便利的信息——cookie

url中的秘密

了解headers

认识json

认识headers

爬虫的基本定义与原理