项目实训
新一代打工人
这个作者很懒,什么都没留下…
展开
-
其他小问题(3)
1.使用pkg包的时候,一开始环境总是配不好,spacy包存在问题,后面用ython3 -m spacy link en_core_web_sm en解决的2.运行时间超长。原创 2020-07-02 11:10:22 · 152 阅读 · 1 评论 -
几种提取关键词的算法(6)
一篇只讲常用算法以及几个简单的实现------原理https://blog.csdn.net/Sakura55/article/details/85122966具体的算法实现大杂烩:https://github.com/yongzhuo/nlp_xiaojiang/blob/master/FeatureProject/sentence_sim_feature.py(已经把代码复制到 实训下的短文本相似度计算)https://blog.csdn.net/rensihui/article/detail原创 2020-07-02 10:58:12 · 411 阅读 · 0 评论 -
Bert(7)
计算出句向量再计算相似度只写一下原理最新语言表示学习方法XLNet,在20项任务上超越BERThttps://blog.csdn.net/qq_31456593/article/details/93015488提取关键词之后,嵌入成词向量,然后不是计算jaccard相似度,而是迁入后,计算cos等其他的相似度。...原创 2020-07-02 10:58:00 · 281 阅读 · 0 评论 -
图形学实验三
1.用–VS—打开—CMake原创 2020-07-02 10:49:16 · 267 阅读 · 0 评论 -
判断论文对在子空间上的相似度(5)
基本思路:刚开始是通过提取关键词计算jaccard相似度的方法,来得出论文对在子空间上的相似度。关键词是用多种算法提取关键词(候选词)后进行综合而得到的。后面发现使用的方法大多和语义不太相关,所以又打算使用bert进行训练子空间上的句向量,然后不是计算jaccard相似度,而是计算cos等其他的相似度。...原创 2020-07-02 09:49:05 · 243 阅读 · 0 评论 -
几种常见的提取关键词的算法(4)
有监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词抽取。其文本关键词抽取流程如下:图 1 无监督文本关键词抽取流程图无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。NO.1、文本关键词提取算法基于统计特征的关键词提取算法基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到.原创 2020-07-02 09:00:16 · 7495 阅读 · 0 评论 -
基于jaccard计算论文对的reference相似度的算法(2)
基本实现思路:由于样本数据量较大,后续使用时,每次读取所有的数据(一对一的引用关系),然后计算相似度速度比较慢,所以把数据集进行了整理,以每篇论文的id为key,以引用的论文的id列表为value进行保存,没有把所有的论文对的相似度计算完保存起来,是因为维度比较高,且数据比较稀疏。(注:对称且稀疏矩阵,可以采用压缩存储。)算法:十分简单的杰卡德系数(Jaccard Index),也称Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异原创 2020-07-01 11:44:46 · 615 阅读 · 0 评论 -
项目实训(1)
第一周的主要工作研究论文并根据reference实现了基于jaccard计算论文对相似度的算法成果论文:我们要实现的算法部分的主要原理:自己的实现:每次输入两个论文的名字,然后通过查询node.list找到相应的id,然后在inlinks.list中找到他引用的所有论文集合,然后计算jaccard相似度。不足之处:在遇到大量的查询两个论文的jaccard相似度时,可能会速度比较慢,想预先计算好相似度,或者保存好每篇论文所以引用的论文集合。python 两个小技巧将字典写入txt或者json 文原创 2020-06-17 18:37:30 · 188 阅读 · 0 评论