漂亮的html页面源码_爬虫数据分析之html

1、 html

html 不是一种编程语言,而是一种标记语言,是制作网页所必须的,你在浏览器里看到的每一个页面,不论简单还是复杂,都是用html编写的,包括你现在看到的这篇文章。

用html写一个简单的页面,是非常容易的,你也可以,将下面这段内容复制到一个文本文件中,另存为 test.html,然后双击文件,浏览器就会打开它

<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        <title>这是一个例子</title>
    </head>
    <body>
        <div>
            <p>这是一段文字</p>
        </div>
    </body>
</html>

浏览器里,会显示一个简单的页面,内容只有一句话“这是一段文字”,上面的这段内容,就是所谓的网页源码。

2、 如何查看网页源码

以谷歌浏览器为例,在打开的网页上空白区域单击右键,就会出现一个下拉菜单,其中一个菜单便是“显示网页源代码”

d2b56f4709d87806e3828a255fa1c8d6.png

点击这个菜单,你就可以查看到网页的源码了。

如果你仔细观察,网页的样子几乎一样,最常见的标签如下

<html> <head> <title> <body> <div> <a>

不管是什么标签,他们都成对的出现,有一个<div>,必有一个</div> 与之相对应,我们想要的数据,就放在这些标签之中。

你想写一个爬虫,首先你得知道,你想要的内容在哪里,他们在哪些标签中,弄清楚这些,你才能写程序去这些标签中提取你想要的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值