Python网络爬虫案例实战：Web前端

andyyah晓波

于 2024-08-08 15:09:56 发布

阅读量479

点赞数 11

分类专栏： Python网络爬虫案例实战文章标签： python 爬虫前端

本文链接：https://blog.csdn.net/andyyah/article/details/141026824

版权

Python网络爬虫案例实战专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Python网络爬虫案例实战：Web前端

了解Web前端的知识是非常重要的。Web前端的知识范围非常广泛，不可能全面和深入地展开介绍，本节主要抽取Web前端中和爬虫相关的知识点进行介绍，为之后的Python 爬虫开发打下基础。
W3C 标准即指万维网联盟，是Web技术领域最具权威和影响力的国际中立性技术标准机构。万维网联盟（W3C）标准不是某一个标准，而是一系列标准的集合。网页主要由3部分组成：结构（Structure）、表现（Presentation）和行为（Behavior）。对应的标准也分为3方面。本节主要讲解HTML.CSS.JavaScript、Xpath 和JSON共5个部分，基本上覆盖了爬虫开发中需要了解的Web前端基本知识。
1.HTML
什么是HTML 标记语言？HTML不是编程语言，是一种表示网页信息的符号标记语言。标记语言是一套标记，HTML使用标记来描述网页。Web浏览器的作用是读取HTML 文档，并以网页的形式显示出它们。浏览器不会显示HTML标记，而是使用标记来解释页面的内容。HTML语言的特点包括：
可以设置文本的格式，比如标题、字号、文本颜色、段落等。可以创建列表。
可以插入图像和媒体。
可以建立表格。
超链接，可以通过单击超链接来实现页面之间的跳转。下面从HTML的基本结构、文档设置标记、图像标记、超链接和表格5个方面讲解。
1）HTML的基本结构
首先在浏览器上访问Google网站（见图2-17），通过右键快捷菜单查看源代码，如图2-18所示。
在这里插入图片描述

从谷歌首页的源代码中可以分析出HTML的基本结构如下：

内容--HTML 文档由包裹，这是HTML 文档的文档标记，也称为HTML开始标记。这对标记分别位于网页的最前端和最后端，在最前端表示网页的开始，在最后端表示网页的结束。内容---HTML文件头标记，也称为HTML头信息开始标记。用来包含文件的基本信息，比如网页的标题、关键字，在内可以放 ..等标记。注意，在标记内的内容不会在浏览器中显示。内容----HTML 文件标题标记。网页的“主题”，显示在浏览器的窗口的左上边。内容---..是网页的主体部分，在此标记之间可以包含如

.
.

等标记，这些内容组成了我们所看见的网页。内容---页面的元信息（meta-information）。提供有关页面的元信息，比如针对搜索引擎和更新频度的描述和关键词。注意标记必须放在head 元素中。 2）文档设置标记文档设置标记分为格式标记和文本标记。下面通过一个标准的HTML 文档对格式标记进行讲解，文档如下： 2. CSS

CSS指层叠样式表（Cascading Style Sheets），用来定义如何显示HTML元素，一般和HTML配合使用。CSS样式表的目的是为了解决内容与表现分离的问题，即使同一个HTML文档也能表现出外观的多样化。在HTML中使用CSS样式的方式，一般有三种做法：
● 内联样式表：CSS代表直接写在现有的HTML标记中，直接使用style属性改变样式。例如，。
● 嵌入式样式表：CSS样式代码写在标记之间，一般情况下嵌入式CSS样式写在之间。
● 外部样式表：CSS代码写一个单独的外部文件中，这个CSS样式文件以“.css”为扩展名，在内（不是在

python爬虫这样/static/js/jquery.js就会被浏览器执行。把JavaScript代码放入一个单独的.js文件中更利于维护代码，并且多个页面可以各自引用同一份.js文件，减少程序员编码量。在页面中多次编写JavaScript代码，浏览器按照顺序依次执行。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/899d11c0776e4df9b7fd9e3ccaeec832.jpeg#pic_center)

andyyah晓波

关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫案例实战：Web前端

对应的标准也分为3方面。CSS样式表的目的是为了解决内容与表现分离的问题，即使同一个HTML文档也能表现出外观的多样化。Web前端的知识范围非常广泛，不可能全面和深入地展开介绍，本节主要抽取Web前端中和爬虫相关的知识点进行介绍，为之后的Python 爬虫开发打下基础。内容--HTML 文档由包裹，这是HTML 文档的文档标记，也称为HTML开始标记。这对标记分别位于网页的最前端和最后端，在最前端表示网页的开始，在最后端表示网页的结束。内容---HTML文件头标记，也称为HTML头信息开始标记。
复制链接

扫一扫

专栏目录