![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
面向特定问题的开源算法推荐
文章平均质量分 78
Simonsdu
这个作者很懒,什么都没留下…
展开
-
(十五)写在最后——课程总结和个人体会
2021SC@SDUSC前言经过本学期的软件工程创新实践这门课程,我对一次完整的科研活动有了初步的了解。在完成这项项目期间,学习了与自然语言处理相关的诸多知识,包括但不限于word2vec、马尔可夫过程、隐马尔可夫链、PageRank算法;同时对nlp领域的常见工具包有了初步的了解并学会了基本的使用方法,例如nltk、StandfordNLP、jieba分词;为了完成项目,还了解了多种实用工具,如docker(运行StandfordNLP)、Scrapy(爬取百度学术数据集)、neo4j(知识图谱制作)原创 2021-12-26 11:10:26 · 603 阅读 · 0 评论 -
(十四)在百度学术中文数据集上运行PositionRank获取最终实验结果
文章目录前言爬虫数据关键词如下:运行截图:![在这里插入图片描述](https://img-blog.csdnimg.cn/6f2f112ace6c435996b81b52ad5264a8.png)生成的数据集概况:运行positionrank结果针对中文数据集进行优化增加停用词修改词项过滤算法代码前言到目前为止,已完成论文分析、源码分析、数据集爬取、修改原程序代码并在中文数据集上运行,这篇文章将从数据爬取开始,正式在完成的数据集上运行并获取相关数据。爬虫数据关键词如下:key_words=['大原创 2021-12-20 11:36:11 · 1324 阅读 · 1 评论 -
(十三)将PositionRank模型运行到给定数据集上(四)
2021SC@SDUSC文章目录简介词列表过滤算法算法修改去除对于单个词长度的限制正则表达式加入对中文的匹配指标计算算法简介在上一篇博客中提到,程序正常运行后得到的评分矩阵元素均为0,为了对中文打分需要对原程序的打分模块进行修改。由于程序可以正常运行,因此可以对程序进行debug分析处理流程。这里将可以得到评分矩阵的原程序(PositionRank)和针对中文修改算法后的新程序(PositionRank2)进行逐步debug对比:当二者都执行完词列表过滤算法后结果如下:PositionRan原创 2021-12-13 16:36:58 · 257 阅读 · 0 评论 -
(十二)PositionRank代码解读(四)
2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法,运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法原创 2021-12-12 11:43:11 · 829 阅读 · 0 评论 -
(十一)将PositionRank模型运行到给定数据集上(三)
2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法,运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法原创 2021-12-01 17:38:03 · 105 阅读 · 0 评论 -
(十)将PositionRank模型运行到给定数据集上(二)
2021SC@SDUSC难点二:中文文本处理文章目录难点二:中文文本处理任务分解关于nltk尝试使用jieba库进行中文处理使用StanfordNLP简介安装测试小结任务分解在positionrank中对于输入text的处理主要包括分句、分词、词干还原、词性确定,在迁移到中文中时,需要去除词干还原模块同时将其他模块的使用迁移到中文。关于nltk在源码分析时注意到nltk的很多方法都开源指定语言,然而在指定语言为chinese后发现提示找不到相关文件。[外链图片转存失败,源站可能有防盗链机制,建原创 2021-11-22 13:44:28 · 1254 阅读 · 1 评论 -
(九)将PositionRank模型运行到给定数据集上(一)
2021SC@SDUSC文章目录简介数据集格式思路一思路二最终选择算法实现简介将PositionRank模型在指定中文数据集上运行需要克服两个主要难点:1.数据集的格式不同。2.需要修改数据处理代码,修改分句、分词方法,去除词干还原算法。本文将解决第一个问题。数据集格式在PositionRank原数据集中,数据被分成了两个文件夹,分别对应原文和关键词,文件名一一对应。而本项目前期获取数据存储在csv文件中,文件名-摘要-关键词为一个数据项。思路一对数据进行预处理,将其保存为原数据集的形式。原创 2021-11-21 14:42:53 · 429 阅读 · 0 评论 -
(八)PositionRank代码解读(三)
2021SC@SDUSC简介本文将分析process_data数据处理模块。read_input_file方法该方法用于文件的读取,除了路径判断是否存在以外还需注意decode方法的第二个参数“ignore”,标识忽略无法解析的二进制编码,如果不忽略,遇到错误二进制编码时会报错。def read_input_file(this_file): if os.path.exists(this_file): with codecs.open(this_file, "rb") as原创 2021-11-14 14:37:27 · 1306 阅读 · 0 评论 -
(七)PositionRank代码分析(二)
2021SC@SDUSC简介本文主要分析核心模块PositionRank.py的使用.初始化# 生成图self.graph = nx.Graph()""" The word graph. """# window用于边的生成self.window = windowbuild_graph方法该方法用于使用window窗口为graph添加边,代码分析如下: def build_graph(self, window, pos=None): """ 该方法原创 2021-11-13 18:54:41 · 998 阅读 · 0 评论 -
(六)PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二
PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二2021SC@SDUSC相关问题影响模型性能的参数扫描窗大小w会影响模型结果。因为w决定会决定哪些边加入图,以及边的权重大小。作者对不同的w在不同数据集上进行测试,发现当w的取值为2-10时,差别并不显著。补充:MRR,对所有查询的相关结果的位置取倒数累加并平均,也就是说当相关结果出现的越早时MRR得分越高。进行Pag原创 2021-11-02 16:49:59 · 158 阅读 · 0 评论 -
(五)爬取项目数据集
2021SC@SDUSC简介根据项目进度安排,需要爬取百度学术生成数据集来测试不同模型的性能表现。然而在实际爬取时遇到了例如页面重复、页面无法访问等问题。页面重复问题描述及解决方案在爬取结束后发现出现了大量的重复页面,一方面浪费了大量时间,另一方面去重需要花费额外的经历。起初,我尝试将页面的第一篇论文题目作为该页面的唯一标识,通过集合来去重,然而这种方式依然无法避免时间浪费的问题。通过对于算法和百度文库的进一步分析,问题源头逐渐浮出水面。在最初的爬虫程序中有一个page_num参数,表示期望爬取的原创 2021-11-01 19:22:35 · 878 阅读 · 0 评论 -
(二)PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读一
2021SC@SDUSC原创 2021-10-10 23:38:20 · 344 阅读 · 0 评论 -
(四)在项目原数据集上运行Position Rank代码存在的问题
在原数据集上运行Position Rank代码存在的问题2021SC@SDUSC简介在github上关于position rank的项目中提供了三个数据集,分别是“www”、”KDD“、”Nguyen“,本周的主要任务是在这三个数据集上跑通代码。目前存在的问题包括:1.数据集的读取方式未知。2.因实验室要求,将项目环境从python2修改为python3.7后部分库存在不兼容的情况。根据python版本更新库函数futures3.2.0在安装futures3.2.0时,pip报错提示没有符合要求原创 2021-10-19 22:28:51 · 357 阅读 · 0 评论 -
(三)Position Rank代码解读(一)
2021SC@SDUSC原创 2021-10-17 23:28:48 · 398 阅读 · 0 评论 -
(一)面向特定问题的开源算法管理与推荐1(问题描述与工作安排)
这是山东大学软件学院大三上学期限选课程《软件工程应用与实践》的系列课程博客,我将在此记录项目的进展和心得体会,水平有限,望见谅!原创 2021-09-28 20:42:56 · 208 阅读 · 0 评论