自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 【Hugging Face】使用本地qwen2模型计算文本的mauve指标

使用hugging face下的evaluate模块,计算mauve指标

2024-07-23 22:03:25 281

原创 【Hugging Face】使用本地qwen2模型计算文本的困惑度perplexity

使用hugging face中的evaluate模块计算文本困惑度

2024-07-23 21:09:00 212

原创 【项目实训】个人工作总结

【代码】【项目实训】个人工作总结。

2024-06-24 16:18:14 238

原创 【项目实训】前端:公司高频考点展示与查询

想要在点击词云后输出弹窗,但是图片路径只能通过acquire动态获取,如果使用静态路径浏览器会报错,去http中寻找图片的src。但是弹窗传入的HTML必须是静态,这个问题干扰我好久,后来才想起来,可以传入HTML之前体现获取好动态路径哈哈。一开始用的elment-ui的$allert,但是无论如何都无法改变弹窗的尺寸,导致图片不能完整显示,更换成el-dialog组件就好了。

2024-06-24 14:06:25 166

原创 【项目实训】知识库数据处理流程介绍

下面为我绘制的知识库数据处理流程。

2024-06-24 13:47:40 188

原创 【项目实训】在聚集结果上对数据进行润色与总结

在前一个步骤的基础上,依据面试问题的知识点进行润色与总结提示词如下下面是一个由句子组成的数组,用双引号围住,句子来源于一些面试者提供的面试信息。请你根据其内容去掉与面问题无关内容,总结出面试中可以提出的问题。具体满足的要求如下:1. 问题必须是问句,2. 问题内容简洁、易于理解3. 问题内容符合你的面试官身份4. 不可以原文输出请你以json格式进行输出,key为"问题",value为你总结问题所组成的list{cluster}system = {

2024-06-24 00:00:51 253

原创 【项目实训】基于bge-large的自然语言文本聚类

项目需求:我们需要对面试经验信息进行总结,但是面试经验的数据量非常大,直接传给大模型会面临以下问题根据上述问题,我们可以先对面试经验中的句子进行聚类,将相似的句子分类在一起,再让大模型对类似的信息进行概括,这样总结能力可能会好一点。

2024-06-23 19:24:29 851

原创 【项目实训】前端优化

我们所需的几个功能:公司一览、面试经验、数据统计,由于都与公司和岗位有关,固在原先的基础上,将几个功能封装在一起。对信息展示页面的封装组件进行调整,使其可以固定长度,其中内容进行滑动。cc同学负责编写api通信代码。

2024-06-23 18:24:06 100

原创 【项目实训】面试经验板块前端实现回顾

在页面中通过下拉框选择公司和职位关键词,后台获取后调用函数,向后端发送请求数据,返回面试经验的信息,在前台展示。由于信息量较大,所以适合懒加载,浏览器中鼠标滑到底部时发送请求,只从数据库查询1条数据进行返回。正常返回的信息需要为一个字典组成的数据,没有数据或异常时应该返回。可以选择公司和岗位,页面中展示出由大模型总结出的面试经验。绑定,选择器中的内容变化后,触发。方法,获取新数据,数据的偏离值。+ 1,调用获取面经信息的函数。,并调用获取面经信息的函数。鼠标滑动到最底部时,触发。

2024-06-22 19:01:02 122

原创 【项目实现】基于提示词指定大模型格式化输出

使用function call格式化输出比较不稳定,因为大模型可能无法将内容和工具的描述匹配在一起,导致无法调用工具。

2024-06-22 17:28:55 430

原创 【项目实训】利用glm3-6b的function cal功能实现格式化输出

首先更改官方给出的工具注册。

2024-06-21 16:58:05 258

原创 【项目实训】基于RAG技术的知识库对话探索

首先使用前端,进行一些知识库对话的prompt尝试知识库总结质量并不太好:只有抽取原回答的能力,甚至不能修改匹配知识条数如果过长,会输出失败,看来暂时无法改变除此之外,也需要清空历史内容,否则长度过长,输出失败prompt1:你可以帮我总结一下java后端有什么常考的知识点吗?以json格式输出,key是知识点的名称,value是由问题组成的列表结果:答案太长可能输出不完prompt2:请你总结一下阿里面试中的题目类型,并给出该类型下的所有题目匹配知识条数3匹配知识条数为10条。

2024-06-21 13:07:27 613

原创 【项目实训】构建向量知识库

以15kb为上限,不断累积原json文档的元素,当添加新的元素导致文件大于15KB之后,将原先累积的元素输出成子json文件。首先尝试将json文件按照其中的字典数量进行拆分,每个子文件存放十条记录。然而发现,由于不同的经验帖子字数不同,会导致拆分后的存储空间非常不均衡。经过排除,发现可能是因为文件较大,而gpu缓存空间不够。测试之后发现,一个文档在15k以内可以成功向量化。成功构建向量知识库,并对文档进行分割。尝试上传作为知识库,发现向量化失败。构建一个计算json数据大小的函数。最低6k,最高30k。

2024-06-20 20:42:05 115

原创 【项目实训】数据清洗

content中的内容,需要先去掉中括号`[]`,然后按照逗号`,`切分,切分的内容去掉两端单引号再加上`\n`表示分行。title中的内容直接通过strip去掉多余的中括号的单引号。2. 爬虫内容中还包括特殊字符 `\xan`1. 爬虫的同学把数组格式的数据直接存储。

2024-06-20 19:10:27 159

原创 【项目实训】牛客网面经数据过滤

观察数据,发现了标题中常见的一些公司,例如“华为、美团、阿里”等,根据标题过滤,将牛客上爬到的数据按照不同的公司分类,并存储在json文件中。数组中每个元素是个字典,表示一个面试经验帖子,分为 `title`、`content`、`url`5. 讲数据按照不同的公司存放成json,最终筛选出26个公司的面试经验。公司名是键,公司对应的值是一个数组,数组中存放该公司的面试经验。2. 遍历同学爬到的csv文件,在标题中使用正则查找这些公司。1. 我定义了一个公司列表文件,里面列举了常见的公司。

2024-06-20 19:08:45 138

原创 【项目实训】基于大语言模型进行自然语言数据集成的路线探索

构建知识库,通过RAG技术与大模型,对自然语言数据进行集成

2024-05-30 22:35:59 832

原创 【项目实训】Langchain-Chatchat知识库接口文档

Langchain-Chatchat项目针对知识库操作的的接口文档

2024-05-29 15:32:00 741

原创 【项目实训】阿里云部署Langchain-Chatchat

在阿里云平台上部署langchain-chatchat项目——一个成熟的RAG实现框架,并调用本地部署的大模型chatglm

2024-04-28 18:45:27 1214 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除