![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
科研训练
文章平均质量分 56
CRiiis
这个作者很懒,什么都没留下…
展开
-
Python 英文文本预处理
目前在做2w+条web of science文献的文献计量分析,是科研训练的项目。老师说项目组都转python了,让我们自学python,所以完全处于小白状态的我一边摸索学python一边缓慢继续我的项目。 一开始是用python将7w+数据导入mysql数据库,筛选后还剩下2w+条,接下来是将每篇文献的摘要和标题进行预处理,构建语料库。 虽然还不清楚到底要构建什么类型的语料库,我个人理解还是...原创 2018-09-25 20:40:17 · 7723 阅读 · 4 评论 -
python:TF-IDF计算
在构建语料库的时候,把每篇文献的关键词抽取出来,接下来是要利用语料库计算文本特征,打算从TF-IDF和拓扑特征两个角度计算,再将二者合并在一起,计算文献之间的相似度。目前拓扑特征还在无限当机中…TF-IDF的概念很熟悉网上也有很多现成的代码,之前查资料的时候看到已经有现成的包可以之间计算TF-IDF,但是我个人觉得用自己编写内部机理可能更加自如吧~重点计算的原理参考链接是https://blo...原创 2018-09-30 10:52:05 · 2341 阅读 · 1 评论 -
python:文献引文网络构建——基于web of science
除了文献内容的文本特征外,文献之间的引文关系也是判断它们之间相似度的重要依据。原创 2018-09-30 11:41:16 · 9726 阅读 · 10 评论