Matlab爬取网页上的论文标题-爬虫2

最新推荐文章于 2023-05-13 20:30:31 发布

lpfycbx

最新推荐文章于 2023-05-13 20:30:31 发布

阅读量1k

点赞数 2

文章标签：正则表达式 matlab

本文链接：https://blog.csdn.net/lpfycbx/article/details/106162806

版权

Matlab可以使科研变得高效

今天尝试了使用matlab来爬取网页上的论文标题，将操作步骤记录一下。
首先给出代码

clear
clc
options = weboptions('CharacterEncoding','UTF-8');
str=webread('https://www.nature.com/',options);
expr='(?<=article"\s{10,}data-track-label="link">).*?(</a>)';
str1=regexp(str,expr,'match');
str2='</a>';
str3=' ';
str4=strrep(str1,str2,str3);
deblank(str4);
xlswrite('article names',str4');

代码解释
1、先把工作区和命令行窗口清除了。

clear   %清除工作区已有数据
clc      %清除命令行窗口

2、转换字符串的编码方式。

options = weboptions('CharacterEncoding','UTF-8');   %将代码的编码方式改为UTF-8

3、获取网页的源码，这个源码和在网页上按F12的内容是一样的。

str=webread('https://www.nature.com/',options);   %抓取nature网站的源码

4、

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lpfycbx

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Matlab爬取网页上的论文标题-爬虫2

Matlab可以使科研变得高效今天尝试了使用matlab来爬取网页上的论文标题，将操作步骤记录一下。首先给出代码clearclcoptions = weboptions('CharacterEncoding','UTF-8');str=webread('https://www.nature.com/',options);expr='(?<=article"\s{10,}data-track-label="link">).*?(</a>)';str1=regexp(st
复制链接

扫一扫