Simonsdu-CSDN博客

原创（九）基于文本的QA问答系统——总结回顾

总结回顾项目实训——基于文本的智能问答系统

2022-06-12 10:19:49 310 1

原创（八）结果验证

评价基于预训练模型的检索系统性能

2022-06-12 10:12:27 817 1

原创（七）基于文本的QA问答系统——实践过程

本文检索了基于预训练模型的信息检索的两种实现方法。

2022-06-12 10:04:45 997

原创（五）基于文本的QA问答系统——corss-encoder方法

cross-encoder方法概述该方法基于GPT模型，利用doc和query构造prompt。将prompt作为模型输入，利用query对应位置的输出结果计算log_softmax,该值可以反映输入词对应输出的预测概率，我们关注query中含有的词汇，对输出中对应query中含有的词汇进行求和，该值可以反映该doc和query相关的程度。由于doc和query共同编码，因此对于语义的理解程度更好。初始化模型并构造prompttokenizer = AutoTokenizer.from_pretr

2022-04-09 16:14:04 1015

原创（四）基于文本的QA问答系统——biencoder方法

biencoder方法加载预训练模型我们使用Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit预训练模型。tokenizer = AutoTokenizer.from_pretrained("Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit",cache_dir = './SGPT-125M-weightedmean-msmarco-specb-bitfit')model = A

2022-04-09 15:15:06 1217

原创（三）基于文本的QA问答系统——SGPT：GPT Sentence Embeddings for Semantic Search解读

SGPT：GPT Sentence Embeddings for Semantic Search解读文章目录SGPT：GPT Sentence Embeddings for Semantic Search解读概述先序知识预训练模型两大范式浅层词嵌入预训练编码器GPTPrompt文章解读SGPT Cross-Encoder Asymmetric SearchSGPT Bi-Encoder Asymmetric Search存在的问题1、中文预训练GPT模型十分匮乏。2、怎样算是一个好的Prompt概述该

2022-03-26 15:48:17 2904

原创（二）基于文本的QA问答系统——深度检索模型概述

深度检索模型概述该部分用于基于上下文信息实现语境对称检索和语境非对称检索。名词解释语境检索semantic search指的是结合上下文语境信息的检索。关于对称检索和非对称检索在文章SGPT: GPT Sentence Embeddings for Semantic Search中有如下解释：简而言之对称检索指的是query与doc的结构和语义相似，找到与query最相关的若干doc；非对称检索指的是query与doc结构与语义差异较大，找到与query最相关的若干doc。动机预训练语言

2022-03-20 17:37:07 630

原创（一）基于文本的QA问答系统——交互系统简介

交互系统介绍概述本项目中，交互系统指的是GUI页面、后端服务器。主要任务包括：1、与用户进行交互，提供图形化服务。2、处理和生成上下文信息（context），为下游任务服务。3、判断用户该问题与前序问题的相关度，从而开启新任务或生成上下文信息。4、更新Q set。核心难点在于：1、如何基于谦虚多个问题生成上下文信息。2、如何判断用户是否开启一个新的问答任务（即当前问题和上一个问题的相关度计算）架构进度安排前四周完成问题相关度的判别方法。第四到八周完成上下文的生成问题。八周以后

2022-03-20 17:35:58 780

原创（十五）写在最后——课程总结和个人体会

2021SC@SDUSC前言经过本学期的软件工程创新实践这门课程，我对一次完整的科研活动有了初步的了解。在完成这项项目期间，学习了与自然语言处理相关的诸多知识，包括但不限于word2vec、马尔可夫过程、隐马尔可夫链、PageRank算法；同时对nlp领域的常见工具包有了初步的了解并学会了基本的使用方法，例如nltk、StandfordNLP、jieba分词；为了完成项目，还了解了多种实用工具，如docker（运行StandfordNLP）、Scrapy（爬取百度学术数据集）、neo4j（知识图谱制作）

2021-12-26 11:10:26 603

原创（十四）在百度学术中文数据集上运行PositionRank获取最终实验结果

文章目录前言爬虫数据关键词如下：运行截图：![在这里插入图片描述](https://img-blog.csdnimg.cn/6f2f112ace6c435996b81b52ad5264a8.png)生成的数据集概况：运行positionrank结果针对中文数据集进行优化增加停用词修改词项过滤算法代码前言到目前为止，已完成论文分析、源码分析、数据集爬取、修改原程序代码并在中文数据集上运行，这篇文章将从数据爬取开始，正式在完成的数据集上运行并获取相关数据。爬虫数据关键词如下：key_words=['大

2021-12-20 11:36:11 1324 1

原创（十三）将PositionRank模型运行到给定数据集上（四）

2021SC@SDUSC文章目录简介词列表过滤算法算法修改去除对于单个词长度的限制正则表达式加入对中文的匹配指标计算算法简介在上一篇博客中提到，程序正常运行后得到的评分矩阵元素均为0，为了对中文打分需要对原程序的打分模块进行修改。由于程序可以正常运行，因此可以对程序进行debug分析处理流程。这里将可以得到评分矩阵的原程序（PositionRank）和针对中文修改算法后的新程序（PositionRank2）进行逐步debug对比：当二者都执行完词列表过滤算法后结果如下：PositionRan

2021-12-13 16:36:58 257

原创（十二）PositionRank代码解读（四）

2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法，运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法

2021-12-12 11:43:11 829

原创（十一）将PositionRank模型运行到给定数据集上（三）

2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法，运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法

2021-12-01 17:38:03 105

原创 java Web项目使用Maven配置jar提示NoClassDeffoundError的问题

直接上图这里提示找不到FSDirectory，然而在porn.xml中已经引入了该依赖。 <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>${lucene.version}</vers

2021-11-30 11:37:40 235

原创（十）将PositionRank模型运行到给定数据集上（二）

2021SC@SDUSC难点二：中文文本处理文章目录难点二：中文文本处理任务分解关于nltk尝试使用jieba库进行中文处理使用StanfordNLP简介安装测试小结任务分解在positionrank中对于输入text的处理主要包括分句、分词、词干还原、词性确定，在迁移到中文中时，需要去除词干还原模块同时将其他模块的使用迁移到中文。关于nltk在源码分析时注意到nltk的很多方法都开源指定语言，然而在指定语言为chinese后发现提示找不到相关文件。[外链图片转存失败,源站可能有防盗链机制,建

2021-11-22 13:44:28 1254 1

原创（九）将PositionRank模型运行到给定数据集上（一）

2021SC@SDUSC文章目录简介数据集格式思路一思路二最终选择算法实现简介将PositionRank模型在指定中文数据集上运行需要克服两个主要难点：1.数据集的格式不同。2.需要修改数据处理代码，修改分句、分词方法，去除词干还原算法。本文将解决第一个问题。数据集格式在PositionRank原数据集中，数据被分成了两个文件夹，分别对应原文和关键词，文件名一一对应。而本项目前期获取数据存储在csv文件中，文件名-摘要-关键词为一个数据项。思路一对数据进行预处理，将其保存为原数据集的形式。

2021-11-21 14:42:53 429

原创（八）PositionRank代码解读（三）

2021SC@SDUSC简介本文将分析process_data数据处理模块。read_input_file方法该方法用于文件的读取，除了路径判断是否存在以外还需注意decode方法的第二个参数“ignore”，标识忽略无法解析的二进制编码，如果不忽略，遇到错误二进制编码时会报错。def read_input_file(this_file): if os.path.exists(this_file): with codecs.open(this_file, "rb") as

2021-11-14 14:37:27 1306

原创（七）PositionRank代码分析（二）

2021SC@SDUSC简介本文主要分析核心模块PositionRank.py的使用.初始化# 生成图self.graph = nx.Graph()""" The word graph. """# window用于边的生成self.window = windowbuild_graph方法该方法用于使用window窗口为graph添加边，代码分析如下： def build_graph(self, window, pos=None): """ 该方法

2021-11-13 18:54:41 998

原创（六）PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二

PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二2021SC@SDUSC相关问题影响模型性能的参数扫描窗大小w会影响模型结果。因为w决定会决定哪些边加入图，以及边的权重大小。作者对不同的w在不同数据集上进行测试，发现当w的取值为2-10时，差别并不显著。补充：MRR，对所有查询的相关结果的位置取倒数累加并平均，也就是说当相关结果出现的越早时MRR得分越高。进行Pag

2021-11-02 16:49:59 158

原创（五）爬取项目数据集

2021SC@SDUSC简介根据项目进度安排，需要爬取百度学术生成数据集来测试不同模型的性能表现。然而在实际爬取时遇到了例如页面重复、页面无法访问等问题。页面重复问题描述及解决方案在爬取结束后发现出现了大量的重复页面，一方面浪费了大量时间，另一方面去重需要花费额外的经历。起初，我尝试将页面的第一篇论文题目作为该页面的唯一标识，通过集合来去重，然而这种方式依然无法避免时间浪费的问题。通过对于算法和百度文库的进一步分析，问题源头逐渐浮出水面。在最初的爬虫程序中有一个page_num参数，表示期望爬取的

2021-11-01 19:22:35 878

Simonsdu的博客