爬虫基础知识-信息获取

Autumn fall

已于 2022-03-12 14:18:30 修改

阅读量1.5k

点赞数 2

分类专栏：爬虫文章标签：爬虫搜索引擎 http

于 2022-03-12 14:15:54 首次发布

本文链接：https://blog.csdn.net/qq_50983302/article/details/123442261

版权

B/S架构 HTTP通信 DNS解析数据抓包网页源代码

关键词由CSDN通过智能技术生成

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

信息获取

在浏览器上获取信息，数据，属于B/S架构通信模式（服务器与浏览器交互的模式），身为客户的你在浏览器上获取服务器的信息就是我们的交互流程。
身为服务端的服务器配置好自己的数据库，配置好自己的网页，开放自己的逻辑端口(浏览器默认访问的为80端口)，供给获取信息的人们访问。

我们在浏览器上搜索自己想要获取的内容，输入一部分文字，敲下回车键，结果搜出来各个网页，这些网页结算到你的面前全都是搜索引擎的功劳，是由搜索引擎来收取各个网页信息，来把各个网页分类，匹配你在搜索框输入的内容，竭力给你内心想要的那个网站。

显示出各个网站，我们点击进去，那就是属于B/S架构通信模式了，你通过浏览器访问这个服务器，DNS服务器匹配你的域名（地址栏的东东），来给你ip地址(网站服务器的ip地址)，你在通过ip地址访问这个服务器，ip地址是通信过程中每个通信设备必有得东西，在通信访问过程中，我们需要ip地址来获取方向，获取目的服务器的方向，通过路由协议(路由表，转发表)一步步的来到服务器的面前，通过它开放的逻辑端口揭开它的面纱，到达服务器，服务器通过你所请求的内容发回数据内容，这个数据内容在根据你的ip地址到达你的面前，这些数据是以html+css+js的方式所写的一些样例，如果我们以记事本的方式打开，那就是一大推英文，数字，符号。但我们的浏览器会将他们显示成一个美工学界面，是不是很有趣。
如果我们想要打开查看这些数据，那就可以数据抓包，我们可以在浏览器上抓包，也可以通过交换设备抓包(接入交换机)，在这里我们只解释第一种，因为我们的核心还是python爬虫，在浏览器上通过F12打开开发者工具
在这里插入图片描述
它长这个熊样子，没有看到什么数据那是因为它没有进行数据交互，有可能你打开的网页是个静态界面，没有动态图片的展示过程，不用担心，我们点击地址栏左边的刷新按钮他就会有数据弹出，这里我们抓取百度的网页展示一下
在这里插入图片描述
我左边栏里已经点击baidu.com这个文件内容了，右边是读取的一些信息
如果我们想要看完整的代码，那就从你想要查看源码的网页内点击右键，查看网页源代码就可以出现你想要看的源码内容

源代码是不是没有想象的那么好看哈哈