Simonsdu
码龄5年
关注
提问 私信
  • 博客:20,033
    20,033
    总访问量
  • 25
    原创
  • 1,788,347
    排名
  • 4
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:福建省
  • 加入CSDN时间: 2019-11-16
博客简介:

Simonsdu的博客

查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得4次评论
  • 获得30次收藏
创作历程
  • 9篇
    2022年
  • 16篇
    2021年
成就勋章
TA的专栏
  • 基于文本的QA问答系统
    9篇
  • 面向特定问题的开源算法推荐
    15篇
  • web
    1篇
  • 笔记
    1篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

(九)基于文本的QA问答系统——总结回顾

总结回顾项目实训——基于文本的智能问答系统
原创
发布博客 2022.06.12 ·
339 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

(八)结果验证

评价基于预训练模型的检索系统性能
原创
发布博客 2022.06.12 ·
915 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

(七)基于文本的QA问答系统——实践过程

本文检索了基于预训练模型的信息检索的两种实现方法。
原创
发布博客 2022.06.12 ·
1087 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

(六)基于文本的QA问答系统——前后端介绍

前后端介绍
原创
发布博客 2022.06.12 ·
543 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(五)基于文本的QA问答系统——corss-encoder方法

cross-encoder方法概述该方法基于GPT模型,利用doc和query构造prompt。将prompt作为模型输入,利用query对应位置的输出结果计算log_softmax,该值可以反映输入词对应输出的预测概率,我们关注query中含有的词汇,对输出中对应query中含有的词汇进行求和,该值可以反映该doc和query相关的程度。由于doc和query共同编码,因此对于语义的理解程度更好。初始化模型并构造prompttokenizer = AutoTokenizer.from_pretr
原创
发布博客 2022.04.09 ·
1074 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(四)基于文本的QA问答系统——biencoder方法

biencoder方法加载预训练模型我们使用Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit预训练模型。tokenizer = AutoTokenizer.from_pretrained("Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit",cache_dir = './SGPT-125M-weightedmean-msmarco-specb-bitfit')model = A
原创
发布博客 2022.04.09 ·
1257 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(三)基于文本的QA问答系统——SGPT:GPT Sentence Embeddings for Semantic Search解读

SGPT:GPT Sentence Embeddings for Semantic Search解读文章目录SGPT:GPT Sentence Embeddings for Semantic Search解读概述先序知识预训练模型两大范式浅层词嵌入预训练编码器GPTPrompt文章解读SGPT Cross-Encoder Asymmetric SearchSGPT Bi-Encoder Asymmetric Search存在的问题1、中文预训练GPT模型十分匮乏。2、怎样算是一个好的Prompt概述该
原创
发布博客 2022.03.26 ·
3047 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

(二)基于文本的QA问答系统——深度检索模型概述

深度检索模型概述该部分用于基于上下文信息实现语境对称检索和语境非对称检索。名词解释语境检索semantic search指的是结合上下文语境信息的检索。关于对称检索和非对称检索在文章SGPT: GPT Sentence Embeddings for Semantic Search中有如下解释:简而言之对称检索指的是query与doc的结构和语义相似,找到与query最相关的若干doc;非对称检索指的是query与doc结构与语义差异较大,找到与query最相关的若干doc。动机预训练语言
原创
发布博客 2022.03.20 ·
720 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(一)基于文本的QA问答系统——交互系统简介

交互系统介绍概述本项目中,交互系统指的是GUI页面、后端服务器。主要任务包括:1、与用户进行交互,提供图形化服务。2、处理和生成上下文信息(context),为下游任务服务。3、判断用户该问题与前序问题的相关度,从而开启新任务或生成上下文信息。4、更新Q set。核心难点在于:1、如何基于谦虚多个问题生成上下文信息。2、如何判断用户是否开启一个新的问答任务(即当前问题和上一个问题的相关度计算)架构进度安排前四周完成问题相关度的判别方法。第四到八周完成上下文的生成问题。八周以后
原创
发布博客 2022.03.20 ·
826 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

(十五)写在最后——课程总结和个人体会

2021SC@SDUSC前言经过本学期的软件工程创新实践这门课程,我对一次完整的科研活动有了初步的了解。在完成这项项目期间,学习了与自然语言处理相关的诸多知识,包括但不限于word2vec、马尔可夫过程、隐马尔可夫链、PageRank算法;同时对nlp领域的常见工具包有了初步的了解并学会了基本的使用方法,例如nltk、StandfordNLP、jieba分词;为了完成项目,还了解了多种实用工具,如docker(运行StandfordNLP)、Scrapy(爬取百度学术数据集)、neo4j(知识图谱制作)
原创
发布博客 2021.12.26 ·
621 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

(十四)在百度学术中文数据集上运行PositionRank获取最终实验结果

文章目录前言爬虫数据关键词如下:运行截图:![在这里插入图片描述](https://img-blog.csdnimg.cn/6f2f112ace6c435996b81b52ad5264a8.png)生成的数据集概况:运行positionrank结果针对中文数据集进行优化增加停用词修改词项过滤算法代码前言到目前为止,已完成论文分析、源码分析、数据集爬取、修改原程序代码并在中文数据集上运行,这篇文章将从数据爬取开始,正式在完成的数据集上运行并获取相关数据。爬虫数据关键词如下:key_words=['大
原创
发布博客 2021.12.20 ·
1392 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

(十三)将PositionRank模型运行到给定数据集上(四)

2021SC@SDUSC文章目录简介词列表过滤算法算法修改去除对于单个词长度的限制正则表达式加入对中文的匹配指标计算算法简介在上一篇博客中提到,程序正常运行后得到的评分矩阵元素均为0,为了对中文打分需要对原程序的打分模块进行修改。由于程序可以正常运行,因此可以对程序进行debug分析处理流程。这里将可以得到评分矩阵的原程序(PositionRank)和针对中文修改算法后的新程序(PositionRank2)进行逐步debug对比:当二者都执行完词列表过滤算法后结果如下:PositionRan
原创
发布博客 2021.12.13 ·
282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(十二)PositionRank代码解读(四)

2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法,运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法
原创
发布博客 2021.12.12 ·
852 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

(十一)将PositionRank模型运行到给定数据集上(三)

2021SC@SDUSC文章目录使用StandfordNlp替换nltk的相关方法存在的问题1解决方案存在的问题2使用StandfordNlp替换nltk的相关方法将nltk中的相关方法替换为nlp的相关方法,运行程序。# 初始化standfordNlpfrom stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP('http://localhost', port=9000,lang='zh')# 修改分句、词性标记的相关方法
原创
发布博客 2021.12.01 ·
125 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java Web项目使用Maven配置jar提示NoClassDeffoundError的问题

直接上图这里提示找不到FSDirectory,然而在porn.xml中已经引入了该依赖。 <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>${lucene.version}</vers
原创
发布博客 2021.11.30 ·
280 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

(十)将PositionRank模型运行到给定数据集上(二)

2021SC@SDUSC难点二:中文文本处理文章目录难点二:中文文本处理任务分解关于nltk尝试使用jieba库进行中文处理使用StanfordNLP简介安装测试小结任务分解在positionrank中对于输入text的处理主要包括分句、分词、词干还原、词性确定,在迁移到中文中时,需要去除词干还原模块同时将其他模块的使用迁移到中文。关于nltk在源码分析时注意到nltk的很多方法都开源指定语言,然而在指定语言为chinese后发现提示找不到相关文件。[外链图片转存失败,源站可能有防盗链机制,建
原创
发布博客 2021.11.22 ·
1276 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

(九)将PositionRank模型运行到给定数据集上(一)

2021SC@SDUSC文章目录简介数据集格式思路一思路二最终选择算法实现简介将PositionRank模型在指定中文数据集上运行需要克服两个主要难点:1.数据集的格式不同。2.需要修改数据处理代码,修改分句、分词方法,去除词干还原算法。本文将解决第一个问题。数据集格式在PositionRank原数据集中,数据被分成了两个文件夹,分别对应原文和关键词,文件名一一对应。而本项目前期获取数据存储在csv文件中,文件名-摘要-关键词为一个数据项。思路一对数据进行预处理,将其保存为原数据集的形式。
原创
发布博客 2021.11.21 ·
447 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(八)PositionRank代码解读(三)

2021SC@SDUSC简介本文将分析process_data数据处理模块。read_input_file方法该方法用于文件的读取,除了路径判断是否存在以外还需注意decode方法的第二个参数“ignore”,标识忽略无法解析的二进制编码,如果不忽略,遇到错误二进制编码时会报错。def read_input_file(this_file): if os.path.exists(this_file): with codecs.open(this_file, "rb") as
原创
发布博客 2021.11.14 ·
1328 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(七)PositionRank代码分析(二)

2021SC@SDUSC简介本文主要分析核心模块PositionRank.py的使用.初始化# 生成图self.graph = nx.Graph()""" The word graph. """# window用于边的生成self.window = windowbuild_graph方法该方法用于使用window窗口为graph添加边,代码分析如下: def build_graph(self, window, pos=None): """ 该方法
原创
发布博客 2021.11.13 ·
1018 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(六)PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二

PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读二2021SC@SDUSC相关问题影响模型性能的参数扫描窗大小w会影响模型结果。因为w决定会决定哪些边加入图,以及边的权重大小。作者对不同的w在不同数据集上进行测试,发现当w的取值为2-10时,差别并不显著。补充:MRR,对所有查询的相关结果的位置取倒数累加并平均,也就是说当相关结果出现的越早时MRR得分越高。进行Pag
原创
发布博客 2021.11.02 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多