自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 基于规则嵌入的论文比对系统——创新实训记录13(个人工作总结)

6-29 个人工作总结创新实训记录13——个人工作总结一、 数据补充整理第一种思路第二种思路二、 数据可视化可视化形式可视化效果展示三、 规则之关键词相似度思路具体实施四、总结在本次项目实训中,我的工作主要分为三个部分,分别是数据补充整理、数据可视化、规则之关键词相似度。下面简要总结概括一下这方面的工作。一、 数据补充整理        最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CC

2020-06-29 15:02:08 211

原创 基于规则嵌入的论文比对系统——创新实训记录12

6-27 可视化完善修改创新实训记录12词云图去停用词重新爬取论文被引用量再可视化数据爬取可视化词云图去停用词修改:在统计关键词列表时就去掉停用词。Stopwords是从网上搜的nltk库中的英文停用词列表。# 去除停用词的关键词列表key_path = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/keywords.txt'key_file = open(key_path,'r')word_list =[]stopword = set(['i', 'me', 'my

2020-06-27 22:14:11 195

原创 基于规则嵌入的论文比对系统——创新实训记录11

6-26 两个规则(关键词)的修改-语义上创新实训记录11思路具体实现之前是直接计算两个关键词集合的杰卡德相似度,没有考虑关键词的语义信息,导致overlap的数据非常少,而不同的单词可能表达的语义是相近的,所以需要对这个规则进行修改。思路思路:首先进行word embedding,将单词转换为向量。然后定义求两组关键词相似度的函数。假设我们有两个关键词集合,分别是{a1,a2,…,an},{b1,b2,…,bm}(假设n>m),将a1与b1,…,bm分别求余弦相似度,取max,同理,a2,…

2020-06-26 14:23:42 175

原创 基于规则嵌入的论文比对系统——创新实训记录10

6-24 根据队友找的提取关键词的模型,处理数据集+定义求杰卡德相似度的函数创新实训记录10处理数据集定义求杰卡德相似度的函数处理数据集根据队友找的模型(这里只采用了一个无监督SingleRank模型,没有进行模型的融合,想要优化的话可以从关键词的提取这入手),处理sentence_textcnn_deal2.json中每个子空间上的句子,提取某篇论文出在该子空间上的关键词。处理结果是生成五个npy文件,对应五个子空间,每个文件的内容是字典。字典的key是论文id,字典的value是集合,包含论文在该

2020-06-25 09:36:45 221

原创 基于规则嵌入的论文比对系统——创新实训记录9

6-23 词云可视化对不同年份、不同会议的论文关键词进行词云可视化。创新实训记录9数据预处理可视化数据预处理首先根据数据集生成所需要的年份列表、会议列表、关键词列表。# 年份列表file_years = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/years.txt'fyears = open(file_years,'r')years = []for line in fyears: year = line.strip() years.append(

2020-06-23 21:03:24 394

原创 基于规则嵌入的论文比对系统——创新实训记录8

6-19 论文相似度探索原有论文的相似度计算方法相同子空间中论文之间的相似性与三种特征相关:  ① CCS分类的相似度;  ② reference的相似程度;  ② 在该子空间上的文本中关键词的相似度。  针对上述三种特征,参考BabbleLabble设计基于规则嵌入的深度模型,优化目标包括CCS分类中公共父节点的距离、reference的杰卡德相似系数、从子空间的文本中提取出的关键词的杰卡德相似系数。ACM数据集现有数据论文Id,论文摘要、作者的单位、论文作者、论文的标签(CCS分类)

2020-06-19 17:15:45 167

原创 基于规则嵌入的论文比对系统——创新实训记录7

6-18 不同年份论文集上的数据可视化补充+不同会议论文集上的一点数据可视化创新实训记录7不同年份论文集上的数据可视化补充不同会议论文集上的一点数据可视化数据预处理可视化不同年份论文集上的数据可视化补充昨天是统计了每一个年份对应的论文总数,现在想要统计一个年份区间内的论文数,以饼状图的形式展示数据,可以更为直观地看到数据之间的比例关系。  我们就以10年为一个区间,通过前期观察发现ACM数据集中1950年之前的论文非常少,所以将1900-1949单独归为一个年份区间。# 可视化:不同年份区间的论文

2020-06-18 10:56:42 169

原创 基于规则嵌入的论文比对系统——创新实训记录6

6-17 不同年份上论文集合数据的可视化  展示论文集合上的一些统计信息,比如,展示数据集中不同年份上论文集的个数,以及平均引用量、被引用量。创新实训记录6不同年份上论文集的个数(柱状图)数据预处理数据可视化不同年份上论文集的平均引用量、被引用量(柱状图)数据预处理数据可视化不同年份上论文的引用量、被引用量(盒须图)数据预处理数据可视化不同年份上论文集的个数(柱状图)数据预处理读取years.txt,将年份对应的总论文数放入一个字典。# 读取years.txt,将年份对应的论文数放入一个字典

2020-06-17 20:56:01 192

原创 基于规则嵌入的论文比对系统——创新实训记录5

6-16 关系图可视化:①论文引用了哪些论文②论文被哪些论文所引用(图的形式)数据预处理首先需要两个基本的数据,title对应论文标题,id_dic是论文id与索引的对应关系。# 获取titlefilepath0 = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/nodes.txt'f0 = open(filepath0,'r')title = []for line in f0: lines = line.strip('\n') title.append

2020-06-16 11:32:06 346

原创 基于规则嵌入的论文比对系统——创新实训记录4

6-15 可视化形式思考+子空间标签数据展示实现创新实训记录4可视化形式思考子空间标签数据展示实现数据预处理可视化实现及效果展示可视化形式思考一、论文集合层面:① 不同的会议、年份形成不同的集合,平均被引用量(柱状图)② 不同的会议、年份形成不同的集合,平均引用量(柱状图)③ 不同的会议、年份形成不同的集合,摘要词云或关键词词云二、单篇论文层面:① 摘要在每个子空间上(0-4)的数量(柱状图)② 论文引用了哪些论文(图的形式)③ 论文被哪些论文所引用(图的形式)子空间标签数据展示实现

2020-06-15 20:58:50 276

原创 基于规则嵌入的论文比对系统——创新实训记录3

6.15 补充数据集,即找到每篇论文相对应的year、venue、quote数据,以相同的格式(每行对应一篇论文)保存到txt文件中。前两天尝试了从OAG官网下载数据,然后从本地数据集中查找对应的论文,但是发现OAG提供的论文数据量太大,针对每一篇论文去查找速度有些慢。  所以转变思路,使用论文检索工具,搜索每一篇论文的题目,然后网址上就会展示论文的各种信息。这里使用的是google scholar国内镜像版,论文信息如下图:   首先我们先新建一个test.txt,里面包含30篇论文的题目作为测试

2020-06-15 11:33:01 225

原创 基于规则嵌入的论文比对系统——创新实训记录2

6.11-6.13 下载数据集+基本概念疑惑解答+相似度计算之Jaccard系数学习关于数据集最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Micro

2020-06-13 20:26:19 340

原创 基于规则嵌入的论文比对系统——创新实训记录1

6.9-6.10 阅读并翻译部分参考文献:Training Classifiers with Natural Language Explanations参考文献部分翻译阅读了Training Classifiers with Natural Language Explanations(用自然语言解释训练分类器),并对于实验之前的部分进行了翻译。参照中文资料:https://baijiahao.baidu.com/s?id=1626537790439444249&wfr=spider&for

2020-06-10 21:29:15 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除