python修改html,Python爬虫精简步骤 HTML基础

最新推荐文章于 2021-06-08 11:57:16 发布

weixin_39807691

最新推荐文章于 2021-06-08 11:57:16 发布

阅读量601

点赞数

文章标签： python修改html

开门见山，HTML的学习可分为三个层次。

读懂，修改，编写。

读懂：只有读懂了HTML，才能看得懂网页结构，才有可能运用Python的其他模块去解析数据和提取数据。想写爬虫程序一定要先学好HTML基础。

修改：在读懂HTML文档的基础上修改HTML代码。

编写：如果达到了这个水平，那就可以去应聘前端工程师了，这是专业的程序员水平。

所以此篇只写如何读懂HTML、修改HTML文档。

HTML概念

HTML(Hyper Text Markup Language)是用来描述网页的一种语言，也叫超文本标记语言。

查看网页的HTML代码

首先，推荐使用这俩浏览器。

开始操作。

随便打开一个网站。我这里打开的是微信表情开放平台。

在网页任意地方点击鼠标右键，然后点击“显示网页源代码”。

(Windows系统的电脑可使用快捷键ctrl+u来查看网页源代码)

浏览器会弹出一个新的标签页。如上图。

这样查看的好处是，整个网页的源代码都完整地呈现在你面前。

坏处是，在大部分情况下，它都会经过压缩，导致结构不够清晰，不太容易懂每行代码的含义。而且，源代码和网页分开在两个页面展示。

更多时候，我们会用这样一种方法：

在网页的空白处点击右键，然后选择“检查”(快捷方式是ctrl+shift+i)。

将鼠标放在HTML源不同行代码上，你会发现，左边网页上有一些内容会被标亮。这其实就是这行代码所描述的网页内容，它们一左一右，相互对应。

HTML的组成

标签和元素

首先，来看一个最简单的HTML文档。

可以看到很多夹在尖括号<>中间的字母，它们叫做【标签】。

标签通常是成对出现的：前面的是【开始标签】，比如 < body >；后面的是【结束标签】，如< /body>。

不过，也有标签是形单影只地出现，比如第3行(定义网页编码格式为 utf-8)，就是此类。这些知道就好，大部分情况下用的都是成双成对出现的标签。

开始标签+结束标签+中间的所有内容，它们在一起就组成了【元素】。

这是几个常见元素：

开始标签元素内容结束标签用法< h1>一级标题< /h1>一级标题< h2>二级标题< /h2>二级标题< p>段落文本< /p>段落< a>描述链接的文本< /a>超链接< div>其他元素或文本< /div>块

根据表格，回看一下上面那段HTML代码，里面就有< h1>，< h2>和< p>。对照看代码的显示结果，< h1>是一级标题，< h2>是二级标题，< p>是段落文本，它们一一对应。

注意：HTML标签是可以嵌套标签的，而且可以多层嵌套。

weixin_39807691

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python修改html,Python爬虫精简步骤 HTML基础

开门见山，HTML的学习可分为三个层次。读懂，修改，编写。读懂：只有读懂了HTML，才能看得懂网页结构，才有可能运用Python的其他模块去解析数据和提取数据。想写爬虫程序一定要先学好HTML基础。修改：在读懂HTML文档的基础上修改HTML代码。编写：如果达到了这个水平，那就可以去应聘前端工程师了，这是专业的程序员水平。所以此篇只写如何读懂HTML、修改HTML文档。HTML概念HTML(Hyp...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。