面向特定问题的开源算法管理和推荐（一） | 2021SC@SDUSC

最新推荐文章于 2021-11-22 16:15:37 发布

郭德纲闭门弟子

最新推荐文章于 2021-11-22 16:15:37 发布

阅读量230

点赞数

分类专栏：软件工程应用与实践文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/m0_46320525/article/details/120532418

版权

软件工程应用与实践专栏收录该内容

17 篇文章 1 订阅

订阅专栏

2021SC@SDUSC

系列文章目录

（一）组内分工情况

文章目录

一.课题总体概述

题目：面向特定问题的开源算法管理和推荐

问题描述：

输入：一个文本库，算法描述（主要是中文）

输出：1）对于每个文本x，抽取关键词作为算法的技术特征

2）同时在以此关键词在数据集中进行检索时，能够反映本文x的主旨

约束条件：

抽取出的关键词与文本内容的相关性（关键词对于当前文本的代表性）
给出抽取到的关键词合适的次序
抽取出的关键词在数据集中的特异性（关键词在当前本文的重要性，相对于数据集中其他文本的显著性）

意义：信息抽取，信息检索

二.课题总体任务

任务一：数据集爬取与统计

需要爬取数据，并填写下列表格

数据集	文档总数	文档平均长度	文档平均关键字个数	关键词在文中存在比
Baiduxueshu

任务二：不同模型性能对比分析

需要对不同模型进行对比分析，并填写下表

实验中所使用的对比模型如下：

PositionRank：该模型是一个用于从学术文档中提取关键词的无监督模型，论文核心就是在词的权值迭代的时候融入位置信息，融入方式有两种，一种是该词出现的所有位置（Fullmode）都融入，另外一种是该词出现的第一个位置(FP)进行融入

Embedrank：先利用POS tags抽取候选短语，然后计算候选短语的embedding和文章embedding的cosine similarity，利用相似度将候选短语排序，得到关键的短语。

PKE：该模型在多部分图结构中对主题信息进行编码，模型在单个图中表示候选关键词和主题，并利用它们的相互加强关系来提高候选排名，引入了一种新机制，将关键词选择偏好纳入模型。

ELSKE：ELSKE可以有效地提取一组候选关键词，而无需依赖计算成本更高的技术，例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名，PF-IDF 方案是流行的 TF-IDF方案的调整版本，适用于分析较大的文档或文档集合。

三.组内分工情况

任务一的爬取数据的程序大家都要负责，任务二的模型每人负责一个，到课程后期大家合作对这些模型进行对比。

我负责PKE模型，参考论文与代码如下：

论文：Unsupervised Keyphrase Extraction with Multipartite Graphs

代码：https://github.com/boudinfl/pke

四.核心代码分析情况

任务一：爬虫部分；数据处理部分

任务二：PKE模型重要核心部分

五.编程环境配置

1.win10

2.Anaconda3

3.PyCharm

4.为方便实验室技术讨论和结果复用，根据语义计算实验室实验环境要求进行配置

Python及其第三方库
1. Python3.7.6
2. 第三方库如
  1. Numpy1.18.1 支持python3.5-3.8
  2. Matplotlib3.1.3 支持python3.6-3.8
  3. Scipy1.4.1 支持python3.5-3.8
  4. Keras2.3.1 支持python3.5-3.8
  5. Scikit_learn0.22.1 支持python3.5-3.8
  6. Scikit_image0.16.2 支持python3.6-3.8
深度学习框架
1. 推荐Pytorch 1.8.2支持cpu/gpu
2. 或tensorflow 1.14 支持python3.5-3.7,python2.7;支持cpu/gpu
Cuda (gpu版需要)
1. cuda 10.1
2. Cudnn 7.6.5 for cuda 10.1(与cuda版本对应)