1 PubMed文献数据分析
1.1 数据读入与字段查看
新建一个ipynb文件,导入需要使用到的库(和上一个博客导入的是相同的库,这里不再进行列出),进行读取PubMed文献数据。

由于字段很多,可以利用Record对象中的getAltName()方法进行具体字段名称的获取,方便查找到预分析的字段。

如果进一步需要查看某一行的字段名称与其对应的结果,指定行数后可以进行循环输出。输出结果如下,图中只截取部分输出信息。

1.2 探究文献标题的词汇量分布
导入的PubMed文献数据的标题中,单词之间均是由空格进行分割。因此按照空格进行分隔提取标题中的词汇数量&