关于爬虫的了解（一）

最新推荐文章于 2021-11-04 20:56:27 发布

Christinaaa_

最新推荐文章于 2021-11-04 20:56:27 发布

阅读量113

点赞数

本文链接：https://blog.csdn.net/Christinaaa_/article/details/118883009

版权

本文介绍了网络爬虫的合法性，讲解了网页的基础组成——HTML、CSS和JavaScript，并通过实例展示了如何创建一个简单的HTML页面。同时，解释了网页请求的过程，包括GET和POST两种方式，并提供了使用Python的requests库进行GET请求的代码示例，帮助初学者理解爬虫的基本原理。

摘要由CSDN通过智能技术生成

阅读资料写下关于爬虫的笔记：

1.爬虫的合法性

对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取

2.了解网页

网页一般由三部分组成，分别是HTML（超文本标记语言）、CSS（层叠样式表）和JScrip（活动脚本语言）

（1）HTML

HTML是整个网页的结构，相当于整个网站的框架。

带“<”、“>”符号的都是属于HTML的标签，而且标签都是成对出现的。

例如：

<html>..</html> #表示标记中间的元素是网页

<body>..</body> #表示用户可见的内容

<div>..</div> #表示框架

<p>..</p> #表示段落

<li>..</li> #表示列表

<img>..</img> #表示图片

<h1>..</h1> #表示标题

<a href=" ">..</a> #表示超链接

（2）CSS

CSS表示样式，如：<style type="text/css">表示下面引用一个CSS，在CSS中定义了外观。

（3）JScript

JScript表示功能。交互的内容和各种特效都在JScript中，其描述了网站中的各种功能。

（如果用人体来比喻，HTML是骨架，CSS是外观细节，JScript是人的技能）

（4）写一个简单的HTML

打开记事本输入以下内容：

<html>
<head>
<title>Python3爬虫与数据清洗入门与实践</title>
</head>
<body>
<div>
<p>Python3爬虫与数据清洗入门与实践</p>
</div>
<div>
<ul>
<li><a href="http://www.baidu.com">爬虫</a></li>
<li>数据清洗</li>
</ul>
</div>
</body>
</html>

输入完后保存记事本，将其后缀改为.html或另存为将编码选择为UTF-8。

打开运行得到以下效果

3.爬虫的基本原理

（1）网页请求的过程

·Request（请求）

向服务器发送访问请求

·Response（响应）

服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们熟悉的网页请求。

（2）网页请求的方式

GET：最常见的方式，一般用于获取或查询资源信息，响应很快

POST：相比GET方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

4.使用GET方式抓取数据

（此处需要在安装requests库，可在cmd中输入pip install requests来安装）

输入代码：

import requests
url='http://www.cntour.cn/'
strhtml=requests.get(url)   #将获取到的数据存到strhtml变量中
print(strhtml.text)   #strhtml是一个URL对象，表示网页中的源码

#加载库使用的语句是import+库的名字

#用GET方式获取数据需要调用requests库中的get方法，使用方法是在requests后输入英文点号：requests.get

Christinaaa_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫