python 爬虫

最新推荐文章于 2023-03-23 11:21:59 发布

jinyan@@.Csdn

最新推荐文章于 2023-03-23 11:21:59 发布

阅读量122

点赞数

本文链接：https://blog.csdn.net/mino7/article/details/103331438

版权

主要内容：

1.了解网页；

2.使用 requests 库抓取网站数据；

认识网页结构
网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。
HTML
HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。
CSS
CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。
JScript
JScript 表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。

如果用人体来比喻，HTML 是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节，如嘴巴长什么样子，眼睛是双眼皮还是单眼皮，是大眼睛还是小眼睛，皮肤是黑色的还是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏乐器等。
写一个简单的 HTML
通过编写和修改 HTML，可以更好地理解 HTML。首先打开一个记事本，然后输入下面的内容：

<html>
<head>
    <title> Python 3 爬虫与数据清洗入门与实战</title>
</head>
<body>
    <div>
        <p>Python 3爬虫与数据清洗入门与实战</p>
    </div>
    <div>
        <ul>
            <li><a href="http://c.biancheng.net">爬虫</a></li>
            <li>数据清洗</li>
        </ul>
    </div>
</body>

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"；
使用 requests 库请求网站
安装 requests 库
首先在 PyCharm 中安装 requests 库，为此打开 PyCharm，单击“File”（文件）菜单，选择“Setting for New Projects…”命令
爬虫的基本原理
网页请求的过程分为两个环节：
Request （请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。
Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求。

网页请求的方式也分为两种：
GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。
POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

jinyan@@.Csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫

主要内容：1.了解网页；2.使用 requests 库抓取网站数据；认识网页结构网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。HTMLHTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。CSSCSS 表示样式，图 1 中第 13 行＜style...
复制链接

扫一扫