为什么不用matlab做爬虫,matlab写爬虫程序为什么必须要掌握正则表达式？必要性在哪里？...-CSDN博客

本帖最后由 qiuhuizuo 于 2019-10-6 17:59 编辑

由于帖子不能发链接。有些引用还请各位在百度中搜索一下，谢谢！代码中的链接查询路径如下：

链接1：新浪财经中-港股-查询00124---损益表。

kk=webread('链接1')复制代码

返回的kk是一个char类型的变量。返回的内容在matlab命令行中显示的内容和排版与在chrome当中访问链接1 并右键单击“查看网页源代码”显示的内容一样。需要爬下来的数据都在kk变量中了。这时只需要用matlab自带的函数，比如字符串函数找到索要提取数据的上下界。并将数据读出，赋值给指定变量就可以了。比如我要查询营业额。在kk变量中存在如下段落：

营业额464.15312.4210.4227.8186.6927.86551091.94

接下来只需要用matlab字符串函数找到“营业额” 和离他最近的“tr” 就找到上下界了。然后将上下界之间的数字读出来赋值给指定变量不就可以了。那么必须掌握正则表达式的必要性在哪里？

如果觉得以上从kk中提取数据的方法太麻烦。那么是否可以参考以下网页内容，找到一个支持matlab的html解析器。直接用解析器来快速提取kk当中的指定内容。毕竟不需要每个人都去发明一遍轮子吧？但是我在网上搜索了一下matlab html解析器没有找到任何有用内容。请问各位大神是否知道matlab官方或者第三方是否有提供支持matlab的html解析器或这相关使用说明的网页么？文章地址：在百度中搜索“python爬虫07 | 有了 BeautifulSoup ，妈妈再也不用担心我的正则表达式了”

----------------------------------------------有个小问题-------------------------------------------------------------------------------

链接1：新浪财经中-港股-查询00124---损益表。当中改变查询类型(年报、中报、一季报……)链接地址并不发生变化。我在chrome中右键单击查询类型的下拉菜单，在弹出的右键菜单中选择“检查”。跟踪到以下代码

全部

年报

中报

一季报

三季报

在用webread读取该链接的时候需要如何设置参数才能返回指定时间跨度的内容呢？