自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 详细解读(三):文本嵌入表示和语义检索

向量数据库Faiss是Facebook AI研究院开发的一种高效的。它能够快速处理大规模数据,并且支持在。索引是Faiss进行高效搜索的关键。

2024-06-24 10:47:05 222

原创 详细解读(二):符合限制的实体语义地图生长

基于指定实体在neo4j中构造并返回两层语义子图,限制最多20个节点。

2024-06-24 09:15:12 104

原创 详细解读(一):基于滑动窗口和余弦相似度检索的UserQuery实体识别

【代码】实体识别和基于知识图谱的知识检索。

2024-06-24 08:56:02 182

原创 后端实现(五):资源整合格式并POST到指定url

分别实现了根据用户query使用自己设计的滑动窗口方法切分并在知识图谱中匹配实体。返回关键实体列表,可以使用实体查询知识图谱并返回关键子图,返回formatted过后的模型回复等一系列用到的所有后端接口。实现了所有后端接口,以抛出指定url下post方法的形式与Vue前端相连接,前端只需要带参(如用户此次query内容)使用requests库请求指定url即可得到后端回复。前端只需要使用request库请求即可得到响应结果。

2024-06-24 08:55:19 110

原创 后端实现(四):API方式实时抛出增强后的模型回复

每次调用模型后在user_query后主动增强一条system的输入,含有系统检索到的相关实体知识。

2024-06-24 08:54:48 108

原创 后端实现(三):接口实现-对接具体数据库操作

每次调用模型后在user_query后主动增强一条system的输入,含有系统检索到的相关实体知识举例:user_query:每次对话后都进行实体识别和基于知识图谱的知识检索实现基于Flask的后端接口供前端请求前端只需要使用request库请求即可得到响应结果实现了所有后端接口,以抛出指定url下post方法的形式与Vue前端相连接,前端只需要带参(如用户此次query内容)使用requests库请求指定url即可得到后端回复。分别实现了根据用户query使用自己设计的滑动窗口

2024-06-24 08:53:52 270

原创 后端实现(二):接口抛出指定格式数据对象

基于bert-base-chinese模型和词表对文本进行初步语义压缩。根据自己设计的滑动窗口法对问句进行划分,进行子实体识别及匹配。根据实体识别窗口确定句子在向量空间中最邻近的k个子实体。确定实体在向量空间中最邻近的k个实体。列表及字典的统一去重方法。

2024-06-24 08:37:42 112

原创 后端实现(一):基于FLASK的POST接口设计

【代码】基于Neo4j图数据库的知识图谱后端检索及处理。

2024-06-24 08:35:27 199

原创 语义理解(四):语义地图的生长

采用配置api_key的方式从后端请求LLM回复已经是非常成熟的方式了,恰逢阿里通义千问Qwen2系列模型全面免费试用,本篇博客将以Qwen2为base model进行讲解。阿里百炼注册目前还可以免费领100万Tokens。

2024-06-24 08:27:02 101

原创 语义理解(三):在知识图谱中的语义拓展检索

RAG(Retrieval-Augmented Generation)是一种将检索和生成结合起来的方法。具体来说,RAG首先从一个大型数据库中检索与查询相关的文档,然后使用这些检索到的文档作为上下文,生成回答或文本。这样的方式可以显著提高生成文本的相关性和信息丰富性。

2024-05-31 15:19:19 292

原创 语义理解(二):实体Embedding及向量相似度匹配

在处理数据分析或文档处理时,PDF文档中的内容往往需要转换为纯文字形式以便于后续操作。为了实现这一目标,可以使用OCR技术。OCR技术能够自动识别PDF文档中的文字,并将其转换为可编辑的纯文字内容。在处理PDF文档时,获取纯文字信息只是第一步。为了进一步分析和处理文本数据,需要对其进行文本划分和向量化。我们考虑直接使用大参数模型(如Qwen-72B)对文本进行清洗,详见其他成员博客。使用RapidOCR提供的方法对PDF文件进行识别,得到初始数据。文本划分计划通过Jieba/HanLP等实现.

2024-05-31 14:43:36 234

原创 语义理解(一):滑动窗口切分用户Query中的实体

考虑到本项目面向的人群主要是山东大学软件学院的学生/老师, 我们需要采集高质量的课程知识资料. 校内维护的高质量课程复习资料可以从山软智库公开平台进行采集, 公开平台也可以获取到课程参考书目和百科资料. 对于获取到的多种资料, 需要进行数据预处理才可以转化为可使用的纯文本.课程参考教材和书目中包含大量结构化的知识,这些知识以清晰、系统的方式呈现,便于学习者查阅和理解。这种知识关联的方式,有助于构建一个完整的知识网络,使学习者在理解某一特定概念时,可以同时了解到与之相关的其他概念,从而形成系统的知识体系。

2024-05-31 14:43:03 310

原创 知识图谱操作(四)Neo4j-基于节点和节点集构建知识地图(关键子图)

Context:通过用户输入在向量库中检索到的相关文档。Answer:模型回复。Query:用户输入。

2024-05-31 14:30:43 291

原创 知识图谱操作(三)Neo4j-节点集自动递归控制查询

想要实现完整的RAG系统,基座技术是前几周实现的Faiss向量库和文本向量嵌入。

2024-05-31 14:30:03 391

原创 知识图谱操作(二)Neo4j -设计基础SQL(CYPHER查询)

向量化计划通过Faiss向量数据库实现.文本嵌入后,考虑对嵌入的向量归入Faiss库。

2024-05-31 14:27:47 160

原创 知识图谱操作(一)Neo4j储存基于实体和关系的知识图谱

可视化问答系统的向量化是非常重要的一环.可视化问答系统数据库的向量化主要考虑将数据预处理部分得到的纯txt文件通过faiss向量库标准化为向量以便后续进行RAG增强检索.

2024-05-31 14:27:09 287

原创 文本向量化(二)基于Faiss向量数据库语义向量检索

目标函数的值(在 k-means 情况下为总平方误差)随迭代次数的变化存储在变量中,并且更详细的统计信息存储在.kmeans.objkmeans.iteration_stats 中。通过PCA,我们可以将Embedding后得到的高维数据投影到一个较低维度的子空间中,这个子空间由数据方差最大的方向(即主成分)构成,从而简化数据结构并突出主要特征。k-means聚类能够通过迭代优化最小化簇内的总平方误差,从而找到数据的自然分组。k-means聚类是一种常用的无监督学习算法,用于将数据分为k个簇。

2024-05-31 14:24:43 309

原创 文本向量化(一)基于Bert-Base-Chinese的文本Embedding

向量数据库Faiss是Facebook AI研究院开发的一种高效的。它能够快速处理大规模数据,并且支持在。索引是Faiss进行高效搜索的关键。

2024-05-31 14:23:06 352

原创 山东大学创新实训-VCR-个人实训记录

VCRS实训记录

2024-03-27 10:46:31 355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除