面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC

2021SC@SDUSC

系列文章目录

(一)组内分工情况

文章目录

系列文章目录

一.课题总体概述

二.课题总体任务

三.组内分工情况

四.核心代码分析情况

五.编程环境配置


一.课题总体概述

题目:面向特定问题的开源算法管理和推荐

问题描述:

输入:一个文本库,算法描述(主要是中文)

输出:1)对于每个文本x,抽取关键词作为算法的技术特征

           2)同时在以此关键词在数据集中进行检索时,能够反映本文x的主旨

约束条件:

  • 抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)
  • 给出抽取到的关键词合适的次序
  • 抽取出的关键词在数据集中的特异性(关键词在当前本文的重要性,相对于数据集中其他文本的显著性)

意义:信息抽取,信息检索

二.课题总体任务

任务一:数据集爬取与统计

需要爬取数据,并填写下列表格

数据集

文档总数

文档平均长度

文档平均关键字个数

关键词在文中存在比

Baiduxueshu

任务二:不同模型性能对比分析

需要对不同模型进行对比分析,并填写下表

 实验中所使用的对比模型如下:

PositionRank:该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息,融入方式有两种,一种是该词出现的所有位置(Fullmode)都融入,另外一种是该词出现的第一个位置(FP)进行融入

Embedrank:先利用POS tags抽取候选短语,然后计算候选短语的embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。

PKE:该模型在多部分图结构中对主题信息进行编码,模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,引入了一种新机制,将关键词选择偏好纳入模型。

ELSKEELSKE可以有效地提取一组候选关键,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。

三.组内分工情况

任务一的爬取数据的程序大家都要负责,任务二的模型每人负责一个,到课程后期大家合作对这些模型进行对比。

我负责PKE模型,参考论文与代码如下:

论文:Unsupervised Keyphrase Extraction with Multipartite Graphs

代码:https://github.com/boudinfl/pke

四.核心代码分析情况

任务一:爬虫部分;数据处理部分

任务二:PKE模型重要核心部分

五.编程环境配置

1.win10

2.Anaconda3

3.PyCharm

4.为方便实验室技术讨论和结果复用,根据语义计算实验室实验环境要求进行配置

  1. Python及其第三方库

    1. Python3.7.6

    2. 第三方库如

      1. Numpy1.18.1 支持python3.5-3.8

      2. Matplotlib3.1.3 支持python3.6-3.8

      3. Scipy1.4.1 支持python3.5-3.8

      4. Keras2.3.1 支持python3.5-3.8

      5. Scikit_learn0.22.1 支持python3.5-3.8

      6. Scikit_image0.16.2 支持python3.6-3.8

  2. 深度学习框架

    1. 推荐Pytorch 1.8.2支持cpu/gpu

    2. 或tensorflow 1.14 支持python3.5-3.7,python2.7;支持cpu/gpu

  3. Cuda (gpu版需要)

    1. cuda 10.1

    2. Cudnn 7.6.5 for cuda 10.1(与cuda版本对应)

其他所需库: six spacy nltk networkx unidecode future joblib pymysql bs4  selenium  time  pandas requests re collections等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值