R语言-数据结构之初体验（parse html）

最新推荐文章于 2022-09-20 16:46:23 发布

安安小初

最新推荐文章于 2022-09-20 16:46:23 发布

阅读量2.1k

点赞数

文章标签： r语言

本文链接：https://blog.csdn.net/anananan2015forspy/article/details/52269819

版权

最近刚刚接触R语言，之前知道一些R语言的一些基本知识，这几天开始进行一些练习。

题目：从Download Stats for Bioconductor
Software Packages(http://bioconductor.org/packages/stats/index.html)中parse出所有的package以及download次数，要求返回为一个numeric vector，download times 为vector中的值，而对应的package储存在这个vector的name属性中，而且保证没有重复的package name.

我所采取的是利用readLines返回一个charactor vector 之后利用regular expression 提取出所需要的信息。在这里会遇到两个问题：
1、regular expression 的写法, regular expression应该遵循的是准确简介，在匹配html文件的时候最好能够加入><的匹配，这样不会混入一些无用信息。
2、如何去除没有匹配到的行，我采取的是subset，这样就导致了一个很麻烦的问题，就是我在同一个问题中采用了两次正则匹配，这样增加了运算时间。因为第一次正则匹配用来去除无用的行，第二次正则匹配用来提取出 package names 和 download times。

我之所以考虑这种办法的原因是我被答案要求的numeric vector限制住了，我想的是第一次返回就是vector。

而我参考的一个非常简单的做法是，
在readLines读出html文件后就把其paste成一个string,然后利用gregexpr进行一次正则匹配可以得出所有匹配上的位置以及长度，再利用substring一次提取出所有的的匹配上的字符返回是就是一个vector. gregexpr可以分组匹配的特点特别好用，这样就可以很方便的知道我们需要信息的起点和长度。

其实R的特点在于它的很多built-in functions都可以返回vector甚至是matrix所以当看到需要返回值是vector时不必那么慌张，反而R中很多数据结构都没有删除这个操作，vector 和 matrix中的删除操作就是提取出需要的行数. 以我现在的体会，在R所给出的数据结构如果做成动态的会相对比较复杂一点。