「已注销」
这个作者很懒,什么都没留下…
展开
-
html标签
学习目标:初步了解html标签,再用正则寻找标签。 上次我们了解了html,但是我们要利用html,必须对html标签足够的认识。 双标签一般以以下格式出现:<标签名 参数名="参数">文本</标签名> 单标签则是这样:<标签名 参数名="参数">因此,我们可以得出结论:标签都是有一定格式和规律,所以,我们就可以用正则表达式寻找html标签。我们准备好示例html代码:<p>text</p>...原创 2022-08-10 13:17:48 · 126 阅读 · 0 评论 -
认识html
学习目标:认识html,并了解其用处。 在之前的文章中,我们讲过html,今天我们来正式认识它。一、html有什么用 作为构建网页的语言,html中有很多对爬虫有用的信息,所以我们需要了解它。二、知道html是什么 Html,原名超文本标记语言,是适用于构件液面的一种web前端语言,我们看到的页面都是由html的代码写成的,而我们爬虫得到的网页源码也是html。三、我们怎么利用html 这就要从html的结构说起:html主要由两部分组成:标签和文本,标.........原创 2022-08-07 15:35:58 · 159 阅读 · 3 评论 -
获取、使用json
学习目标:获取json格式的数据,并学会使用它。 上次我们认识了json,并提到了json出现的三种格式,今天我们来获取json数据。一、单独文件 这种文件其实很简单,只要用content或text来获取。但是要让它转化成Python的格式,就要用到json模块。import jsonj=json.loads(r)第1行,我们打过了json模块;第2行的loads是为了将json的数据,转化成Python可以处理的数据。(至于这个r,就是json文件的文本)...原创 2022-07-17 19:38:17 · 875 阅读 · 0 评论 -
获取网页源代码
之前的学习中,我们学会了请求网页,并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>,而不可以得到其他信息。今天我们来学习两个简单的方法,使我们可以得到网页的源代码。一、 Test 我们先来看一个实例:import requestsr=requests.get(url="https://www.Python.org").textprint(r)运行它以后,我们可以看到很多的html代码,至于什么是 html,我们......原创 2022-06-30 10:18:52 · 3125 阅读 · 0 评论 -
发送请求——从requests入手
学习目标:学会安装requests,并且简单了解requests。 上一次我们基本了解了爬虫,这次我们开始正式的学习。 首先爬虫请求需要一个叫requests的模块,它主要用于请求数据。 requests因为不是标准库,所以需要额外安装,我们需要用到终端的pip命令,它是专门用来管理模块的。 首先我们打开终端,输入:Python -m pip install --user requests这个命令可以用来安装requests模块。 现在来介绍r............原创 2022-06-23 18:01:38 · 167 阅读 · 0 评论 -
认识GET和POST
学习目标:认识get和post两个类,并知道GET和POST请求的区别和用途。 上次我们安装并了解了requests,现在我们开始使用它。 首先requests里面有非常重要的两个类,他们分别是get和post,get和post都是用于请求的,但根据不同的需求需要使用不同的方法。一、 GET和POST的区别 其实get和post分别是两种不同的请求方式,但它们的原理和性质不同,接下来我们来了解一下。 (1).GET请求 我们来打一个比较简...原创 2022-06-24 18:06:49 · 522 阅读 · 0 评论 -
发送一个请求
学习目标:用get和post分别发送一个请求,获取状态码。 上一次我们认识的get和post,并简单讲了它们的用法,这次我们开始正式使用它们。 首先我们导入requests模块:import requests 接下来我们开始定义一些基本的信息:url="https://www.baidu.com/"在这里我们只定义了URL(链接地址),写入了一个叫做url的变量里。 接下来开始使用get和post:r1=requests.get(ur......原创 2022-06-25 13:41:57 · 131 阅读 · 0 评论 -
解决请求方式的问题
学习目标:解决不知道用get方法还是post方法的问题。 上次我们使用的get和post,但是遇到了一个问题,不知道该用get好还是post好,这次我们来用三种办法解决它。一、试一试 这是一种最简单的方法,就是首先你用get试一下,如果不行就换post,就这么简单。二、推测法 这就是你逻辑思维的问题了,我们首先来想一想,如果没有必要的情况下,服务器肯定会用get,而在需要加密或者大数据的时候,会用post。所以按照这样的思维,一般情况下可以找到是用get还是po..........原创 2022-06-26 10:25:33 · 163 阅读 · 0 评论 -
从浏览器中获取headers
学习目标:学会在浏览器开发者选项中提取请求头。 上次我们学会了怎样传入headers,但不知道应该传些什么,这次我们来学会从浏览器中提取它。 我们打开开发者选项的Network:我们在里面找到request headers,这里面就是很多的头部信息,现在我们暂时用到的应该就是user agent他可以告诉浏览器,你是用什么软件向他发出的请求,把它改掉以后服务器就以为这是一个浏览器。我们将它复制下来,传入,这样一般就可以得到所有数据,以后我们来讲一下其他的东西分别是什......原创 2022-07-05 18:19:10 · 4714 阅读 · 1 评论 -
请求二进制文本并写入文件
学习目标:学会如何请求二进制的数据,并将它们写入文件。 之前我们解决了headers的问题,可以得到文本的所有内容了,这次我们来请求一种特殊的文本——二进制。 只要懂点电脑的人,对二进制肯定很熟悉,一般的音频视频文件,都是用二进制文本构成的。所以为了请求到这些文件,我们必须请求到它的二进制信息。首先我们尝试用老办法来解决一下这些二进制的信息。import requestsurl="""一个二进制文件的URL"""headers="""请求头此处不展示"""r........原创 2022-07-06 07:37:15 · 211 阅读 · 0 评论 -
让你便利的信息——cookie
学习目标:认识并传入cookie。 学习json以后,我们将学习另一种信息——cookie。 如果你将请求来多代码写入一个html(具体后面会讲)格式的文件中,你打开后的未登录的页面;而你用浏览器来打开,一般是登录后的。其实是因为每次完成登录后,服务器会发给你一个cookie,其中包含了你的帐号、密码,当你再次打开时会自动将cookie发出去,就得到了登录后的页面。 我们来找一下cookie,先打开开发者选项:我们找到headers,这边有很多的参数,有的(大...原创 2022-07-20 18:30:00 · 112 阅读 · 0 评论 -
url中的秘密
学习目标:了解url的规律,并学会运用。一、开头 开头一般表示网页的类型,如:http://表示没有ssl的网页而https://表示有;file://表示一个html文件等。二、域名和端口 url开头之后一般以xxx.xxxx.xxx的形式出现,以.隔开两段,段数不一,一般后两段为网络域名,如是三段及以上,前几段表示某个端口。还有一种是以xxx.xxx.xxx.xxx:xxxx出现的,在:前面是服务ip之后则是端口号。三、路径 其实网站服务器的虚拟环境也...........原创 2022-07-21 10:40:10 · 153 阅读 · 0 评论 -
了解headers
学习目标:了解headers中的user-agent、cookies和referer。 上次我们了解了url,这次来了解headers中最重要的user-agent、cookies和referer。一、user-agent 这是最简单的一个,我们之前讲过,服务器为了确认发出请求的是什么,一般会检查user-agent,所以它十分重要。二、cookies 这个我们之前也讲过,cookies是用于传输参数的,cookie不同,结果就不同。三、referer...原创 2022-07-30 14:16:19 · 256 阅读 · 5 评论 -
认识json
学习目标:认识json。 之前我们请求了网页的文本信息,今天我们来认识一种新的类型的数据——json。 我们了解一下json:这样讲大家可能看不懂,我来补充一下。在网页的源码中,一般有三种代码,分别是html、css、javascript(js)。html用于构建页面,css用于对页面修饰,而javascript则用于运行一些操作。我们知道,在Python中要存储信息,会用到int、float、list、dictionary等来存储;而javascript也一样有很多数据........原创 2022-07-14 15:08:36 · 196 阅读 · 0 评论 -
认识headers
学习目标:了解并学会传入headers。 上次我们在写代码时遇到了一个问题,就是得到的文本只有一点点。这是因为服务器为了反爬,实施的一种措施。 首先我们要了解一下headers,他就是我们在请求过程当中传入的头部信息,这种浏览器可以分辨你是什么身份。我们首先看一下默认传入的headers。print(r.headers)我们就直接在上次的代码下面加上这个,从得到的信息里面你可以看到,requests直接告诉了服务器这是一个爬虫。所以我们要改一下headers。h...原创 2022-07-04 18:53:12 · 1840 阅读 · 0 评论 -
爬虫的基本定义与原理
你听说过爬虫吗?从今天开始我们一起学习Python爬虫吧!一、爬虫的定义 你可能不知道,其实你现在就在爬虫,原来爬虫分为通用爬虫和聚焦爬虫,通用爬虫就是我们平常的上网,而我们Python则是聚焦爬虫。爬虫主要是通过我们的电脑向服务器发送请求,然后服务器返回数据给我们。二、爬虫的原理 通用爬虫一般是我们电脑在打开网站时,我们的电脑向服务器发送一个请求,然后服务器发送给我们页面代码,在我们的浏览器上运行。我们每次完成一个操作就会重新向服务器发送一个相应的请求。以此类推交换信息........原创 2022-06-19 09:34:50 · 474 阅读 · 0 评论