Python网络爬虫案例实战:Web前端

Python网络爬虫案例实战:Web前端

了解Web前端的知识是非常重要的。Web前端的知识范围非常广泛,不可能全面和深入地展开介绍,本节主要抽取Web前端中和爬虫相关的知识点进行介绍,为之后的Python 爬虫开发打下基础。
W3C 标准即指万维网联盟,是Web技术领域最具权威和影响力的国际中立性技术标准机构。万维网联盟(W3C)标准不是某一个标准,而是一系列标准的集合。网页主要由3部分组成:结构(Structure)、表现(Presentation)和行为(Behavior)。对应的标准也分为3方面。本节主要讲解HTML.CSS.JavaScript、Xpath 和JSON共5个部分,基本上覆盖了爬虫开发中需要了解的Web前端基本知识。
1.HTML
什么是HTML 标记语言?HTML不是编程语言,是一种表示网页信息的符号标记语言。标记语言是一套标记,HTML使用标记来描述网页。Web浏览器的作用是读取HTML 文档,并以网页的形式显示出它们。浏览器不会显示HTML标记,而是使用标记来解释页面的内容。HTML语言的特点包括:
可以设置文本的格式,比如标题、字号、文本颜色、段落等。可以创建列表。
可以插入图像和媒体。
可以建立表格。
超链接,可以通过单击超链接来实现页面之间的跳转。下面从HTML的基本结构、文档设置标记、图像标记、超链接和表格5个方面讲解。
1)HTML的基本结构
首先在浏览器上访问Google网站(见图2-17),通过右键快捷菜单查看源代码,如图2-18所示。
在这里插入图片描述
在这里插入图片描述
从谷歌首页的源代码中可以分析出HTML的基本结构如下:

内容--HTML 文档由包裹,这是HTML 文档的文档标记,也称为HTML开始标记。这对标记分别位于网页的最前端和最后端,在最前端表示网页的开始,在最后端表示网页的结束。 内容---HTML文件头标记,也称为HTML头信息开始标记。用来包含文件的基本信息,比如网页的标题、关键字,在内可以放 ..等标记。注意,在标记内的内容不会在浏览器中显示。 内容----HTML 文件标题标记。网页的“主题”,显示在浏览器的窗口的左上边。 内容---..是网页的主体部分,在此标记之间可以包含如

.

.
.
等标记,这些内容组成了我们所看见的网页。 内容---页面的元信息(meta-information)。提供有关页面的元信息,比如针对搜索引擎和更新频度的描述和关键词。注意标记必须放在head 元素中。 2)文档设置标记 文档设置标记分为格式标记和文本标记。下面通过一个标准的HTML 文档对格式标记进行讲解,文档如下: 2. CSS

CSS指层叠样式表(Cascading Style Sheets),用来定义如何显示HTML元素,一般和HTML配合使用。CSS样式表的目的是为了解决内容与表现分离的问题,即使同一个HTML文档也能表现出外观的多样化。在HTML中使用CSS样式的方式,一般有三种做法:
● 内联样式表:CSS代表直接写在现有的HTML标记中,直接使用style属性改变样式。例如,。
● 嵌入式样式表:CSS样式代码写在标记之间,一般情况下嵌入式CSS样式写在之间。
● 外部样式表:CSS代码写一个单独的外部文件中,这个CSS样式文件以“.css”为扩展名,在内(不是在

python爬虫 这样/static/js/jquery.js就会被浏览器执行。把JavaScript代码放入一个单独的.js文件中更利于维护代码,并且多个页面可以各自引用同一份.js文件,减少程序员编码量。在页面中多次编写JavaScript代码,浏览器按照顺序依次执行。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/899d11c0776e4df9b7fd9e3ccaeec832.jpeg#pic_center)
  • 11
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值