除了文献内容的文本特征外,文献之间的引文关系也是判断它们之间相似度的重要依据。
观察WOS中下载数据中的CR字段,是每篇文献的参考文献情况:
从图中可以看出,WOS是通过文献的DOI来标注参考文献的,所以要知道文献之间的引用情况必须要把每篇文献引用的DOI集提取出来:
def DOISET(raw,export_url,num):
re_out=open(export_url,'a')
DOIset1=[]
DOIset2=[]
raw=raw.strip()
line=[]
line=raw.split('; ')
for words in line:
word=words.split(', ')
for i in word:
if 'DOI' in i:
DOIset1.append(i)
else:
continue
for DOI in DOIset1:
DOIset2.append(DOI.replace('DOI ', ''))
out_str=','.join(DOIset2)
re_out.write(str(num)+'\t')
re_out.write(out_str)
re_out.write('\n')
re_out.close()
import mysql.connector
def connect_mysql():
conn=mysql.connector.connect(host='localhost', user