2021SC@SDUSC
系列文章目录
(一)组内分工情况
文章目录
一.课题总体概述
题目:面向特定问题的开源算法管理和推荐
问题描述:
输入:一个文本库,算法描述(主要是中文)
输出:1)对于每个文本x,抽取关键词作为算法的技术特征
2)同时在以此关键词在数据集中进行检索时,能够反映本文x的主旨
约束条件:
- 抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)
- 给出抽取到的关键词合适的次序
- 抽取出的关键词在数据集中的特异性(关键词在当前本文的重要性,相对于数据集中其他文本的显著性)
意义:信息抽取,信息检索
二.课题总体任务
任务一:数据集爬取与统计
需要爬取数据,并填写下列表格
数据集 | 文档总数 | 文档平均长度 | 文档平均关键字个数 | 关键词在文中存在比 |
Baiduxueshu |
任务二:不同模型性能对比分析
需要对不同模型进行对比分析,并填写下表
实验中所使用的对比模型如下:
PositionRank:该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息,融入方式有两种,一种是该词出现的所有位置(Fullmode)都融入,另外一种是该词出现的第一个位置(FP)进行融入
Embedrank:先利用POS tags抽取候选短语,然后计算候选短语的embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。
PKE:该模型在多部分图结构中对主题信息进行编码,模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,引入了一种新机制,将关键词选择偏好纳入模型。
ELSKE:ELSKE可以有效地提取一组候选关键词,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。
三.组内分工情况
任务一的爬取数据的程序大家都要负责,任务二的模型每人负责一个,到课程后期大家合作对这些模型进行对比。
我负责PKE模型,参考论文与代码如下:
论文:Unsupervised Keyphrase Extraction with Multipartite Graphs
代码:https://github.com/boudinfl/pke
四.核心代码分析情况
任务一:爬虫部分;数据处理部分
任务二:PKE模型重要核心部分
五.编程环境配置
1.win10
2.Anaconda3
3.PyCharm
4.为方便实验室技术讨论和结果复用,根据语义计算实验室实验环境要求进行配置
-
Python及其第三方库
-
Python3.7.6
-
第三方库如
-
Numpy1.18.1 支持python3.5-3.8
-
Matplotlib3.1.3 支持python3.6-3.8
-
Scipy1.4.1 支持python3.5-3.8
-
Keras2.3.1 支持python3.5-3.8
-
Scikit_learn0.22.1 支持python3.5-3.8
-
Scikit_image0.16.2 支持python3.6-3.8
-
-
-
深度学习框架
-
推荐Pytorch 1.8.2支持cpu/gpu
-
或tensorflow 1.14 支持python3.5-3.7,python2.7;支持cpu/gpu
-
-
Cuda (gpu版需要)
-
cuda 10.1
-
Cudnn 7.6.5 for cuda 10.1(与cuda版本对应)
-
其他所需库: six spacy nltk networkx unidecode future joblib pymysql bs4 selenium time pandas requests re collections等