第6章 6.4.1 案例一：爬取亚洲各地区的实时时间（MATLAB入门课程）

最新推荐文章于 2024-08-23 00:34:33 发布

数学建模学习交流

最新推荐文章于 2024-08-23 00:34:33 发布

阅读量578

点赞数 22

分类专栏： MATLAB教程新手入门篇（数学建模清风主讲）文章标签： matlab 数学建模开发语言

本文链接：https://blog.csdn.net/qq_32589267/article/details/137572489

版权

MATLAB教程新手入门篇（数学建模清风主讲）专栏收录该内容

61 篇文章 49 订阅

订阅专栏

本文介绍了如何利用MATLAB的webread函数爬取亚洲时间表网站的数据，包括查看网页源代码、定位关键数据、以及处理字符编码问题，旨在帮助读者入门爬虫技术并提高数据获取效率。

摘要由CSDN通过智能技术生成

讲解视频：可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。

MATLAB教程新手入门篇（数学建模清风主讲，适合零基础同学观看）_哔哩哔哩_bilibili

本案例将引导大家爬取亚洲各地区的实时时间。我们将从下面这个网站中获取数据：现在亚洲时间_亚洲时间表_亚洲时间与北京时间_亚洲时区天气网时差频道（time.tianqi.com）为您提供亚洲时间表，可进行亚洲时间在线查询与换算和亚洲时间与北京时间对比，更有按亚洲时区划分的亚洲城市时间查询。https://time.tianqi.com/asia_shijian

首先，请大家在自己的电脑上打开浏览器，并输入上述网址访问该网站。网站打开后，我们会看到亚洲各个地区的实时时间。

接下来，为了更好地帮助大家理解爬虫的流程，我们需要查看网页的源代码。这可以通过在浏览器的当前网站中点击鼠标右键，然后选择“查看网页源代码”来实现（请注意，本书示例使用的是谷歌Chrome浏览器，不同的浏览器可能在功能名称上略有差异）。

当你打开网页源代码后，会看到一大堆由HTML标签组成的代码。这些代码定义了网页的结构和内容。我们的目标是从中找到与我们需要的实时时间数据相关的部分。

一种有效的方法是在源代码中搜索我们想要提取的数据的关键词（快捷键Ctrl+F），比如“阿联酋”。这样就能快速定位到我们所需的数据在源码中的位置。

接下来，我们可以将整个网页源代码视为一个文本，并从这个文本中提取出我们感兴趣的数据，即各地区的名称和对应的实时时间。提取数据的方法有多种，既可以使用之前学过的文本处理函数，也可以使用本章介绍的正则表达式。通常情况下，网页源码中的数据在结构上具有一定的规律性，这时使用正则表达式进行提取通常会更加高效和方便。

在之前未掌握爬虫技术时，我们需要手动查看网页源代码，将其复制粘贴到文本文件中，或者将整个网页保存为HTML文件，然后再使用fileread函数将源码读取到MATLAB中。这样的操作繁琐且耗时，且对于本题而言爬取的时间也失去了实时性。

然而，现在我们将利用MATLAB的webread函数，直接获取网页的源代码。这一自动化的过程不仅省去了手动保存的繁琐步骤，更大大提高了数据获取的效率。

webread函数是MATLAB中用于获取网页内容的函数。在使用之前，我们可以通过weboptions函数来明确指出网页的字符编码，这样能避免在某些网站中可能出现的字符乱码问题。接下来，我们将展示如何使用这两个函数来获取指定网址的网页源代码。