lyh20021209
码龄4年
关注
提问 私信
  • 博客:47,510
    问答:1,052
    48,562
    总访问量
  • 70
    原创
  • 46,300
    排名
  • 503
    粉丝
  • 0
    铁粉

个人简介:山大软院在读 纯小白

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 加入CSDN时间: 2021-09-08
博客简介:

lyh20021209的博客

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    791
    当月
    2
个人成就
  • 获得664次点赞
  • 内容获得13次评论
  • 获得745次收藏
  • 代码片获得161次分享
创作历程
  • 39篇
    2024年
  • 16篇
    2023年
  • 15篇
    2022年
成就勋章
TA的专栏
  • 数据结构与算法
    35篇
  • 项目实训-易学大模型
    16篇
  • 项目实训日志
    16篇
  • 计组课设
    1篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

字符串哈希

首先对于任意索引i,如果target[i:j]有匹配前缀,那么target[i:j-k](其中j-k≥i)一定有匹配;若target[i:j]没有匹配,那么target[i:j+k](其中k≥0)一定没有匹配。因此可以把所有前缀的哈希置入一个set的列表sets,sets[j]表示前缀长度为j的字符串的哈希值的集合。其实,“target子串的最长前缀匹配”,其实就是主站45题跳跃游戏Ⅱ的贪心。不过字典树的O(nk)显然是超时的,n是words数组长度,k是words数组元素长度总和。
原创
发布博客 2024.12.17 ·
325 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

Prime Sieve

暴力筛的想法很简单,就是2到i-1每个数看一眼能不能整除,都不能就是素数。
原创
发布博客 2024.10.21 ·
472 阅读 ·
5 点赞 ·
2 评论 ·
8 收藏

Segment Tree

例如第一个方块[x,y],那么[x:x+y-1],第二个方块[z,x-z],则[z:x-1],但实际上这俩是贴边的。这个时候[1,2]的最大值很显然为10(例如我们要在[1,2]上放一个方块,他就得从10开始算了),但[1,1]的值为0,[2,2]的值为10,因此取左右子树最大值,也即10。对于回溯(pushup)我们可以发现,当一个新的方块落下时,他应该查找[l,r]中最大的高度并且累加上去。这个写法在左半部分是没问题的,即[x,mid],因为这个区间是肯定要查的。从1开始,接收一个从0开始的数组。
原创
发布博客 2024.08.01 ·
945 阅读 ·
12 点赞 ·
0 评论 ·
12 收藏

dsa加训

Follow oi-wiki
原创
发布博客 2024.07.21 ·
413 阅读 ·
9 点赞 ·
0 评论 ·
1 收藏

创新实训2024.05.01日志:document-loaders

在建立易学知识库的过程中,仅仅有向量数据库以及词嵌入模型、分词器是不够的,因为我们有大量的非结构化文本(如doc,pdf)或者是图片需要上传(例如pdf里面有图片),此时词嵌入无法直接向向量数据库中嵌入图片,需要对图片内文字进行识别,转换为文本后才能继续嵌入。
原创
发布博客 2024.06.21 ·
850 阅读 ·
9 点赞 ·
0 评论 ·
27 收藏

创新实训2024.06.17日志:大模型微调总结

前段时间其实我们已经部署了大模型,并开放了对外的web接口。不过由于之前某几轮微调实验的大模型在对话时会有(例如响应难以被理解),因此我在项目上线后,监控了数据库里存储的对话记录。确定了最近一段时间部署的大模型回复一切正常后,着手写这篇有关大模型微调记录的博客。
原创
发布博客 2024.06.17 ·
1163 阅读 ·
27 点赞 ·
0 评论 ·
22 收藏

创新实训2024.06.06日志:部署web服务

首先我们要先在服务器上运行客户端以及服务端的应用程序。随后再考虑如何通过公网/局域网访问的问题。如何启动服务在仓库对应分支下的Readme文件中已经有详细描述了。
原创
发布博客 2024.06.06 ·
727 阅读 ·
20 点赞 ·
0 评论 ·
15 收藏

创新实训2024.06.03日志:完善Baseline Test框架、加入对Qwen-14B的测试

在之前的一篇博客中(),我介绍了我们对于大模型进行基线测试的一些基本想法和实现,包括一些基线测试的初步结果。后来的一段时间,我一直在试图让这个框架变得更加可用、可扩展、可移植,因为我们想加入更多的大模型(无论在线离线、无论哪个组织开源的、无论多少超参数)进行基线测试,以此更好地衡量我们自己微调并利用RAG技术接入知识库的大模型的性能。在6.2号,我完成了。在6.3号,我完成了微调1000轮以及未微调的大模型接入知识库之后的基线测试。并且利用数据可视化脚本,绘制出了一份。
原创
发布博客 2024.06.04 ·
867 阅读 ·
16 点赞 ·
0 评论 ·
26 收藏

创新实训2024.06.02日志:SSE、流式输出以及基于MTPE技术的MT-SSE技术

之所以要做SSE,是因为在开发、调试以及使用我们开发的软件时,我发现消息的响应时间会很长。之所以会这样最主要的原因是,MTPE这项基于CoT的技术,本质上是多对大模型生成回答的能力进行增强。多步提示工程就延长了大模型思考、整理、融合检索到的知识的时间(也就是说我们。
原创
发布博客 2024.06.02 ·
1063 阅读 ·
14 点赞 ·
0 评论 ·
28 收藏

2024山软创新实训:软件系统架构

本文着重介绍本应用:基于开源LLM的易学大模型软件系统的架构。在经过2个月的探索、选型、实验、开发后,我们团队终于把整个系统的各块拼图搭建了起来,现在剩下的是集成、评测、优化和部署的工作。
原创
发布博客 2024.05.30 ·
1152 阅读 ·
11 点赞 ·
2 评论 ·
30 收藏

创新实训2024.05.29日志:评测数据集与baseline测试

(后续,我们会加入经过结构化文本构成的数据集微调的大模型,并有带/不带知识库两种类型,另外还可以加入国内外已有通用大模型,例如文心一言、ChatGPT等)。
原创
发布博客 2024.05.29 ·
1148 阅读 ·
15 点赞 ·
0 评论 ·
29 收藏

创新实训2024.05.28日志:记忆化机制、基于MTPE与CoT技术的混合LLM对话机制

在利用大模型自身能力进行对话与解答时,最好对用户当前会话的历史记录进行还原,大模型能够更好地联系上下文进行解答。在langchain chat chat的chat函数中,通过实现langchain框架提供的ChatMemory。就可以建立一个对话记录的缓冲区,随后读取历史会话记录到缓冲区,在对话时作为memory参数传入。
原创
发布博客 2024.05.28 ·
1173 阅读 ·
17 点赞 ·
0 评论 ·
16 收藏

创新实训2024.05.26日志:服务端接口实现——用户开启多个会话

类似于Kimi,文心一言,chatGPT等市面上主流的大模型,我们的大模型也支持同一个用户的多个会话,并且提供支持联系上下文给出解答的能力。
原创
发布博客 2024.05.26 ·
868 阅读 ·
10 点赞 ·
0 评论 ·
31 收藏

创新实训2024.05.26日志:落地基于硬盘的数据库服务

以下描述易学大模型软件的web应用的功能。
原创
发布博客 2024.05.26 ·
934 阅读 ·
24 点赞 ·
0 评论 ·
22 收藏

创新实训2024.05.25日志:Web应用技术选型

Uvicorn 是一个轻量级的 ASGI(Asynchronous Server Gateway Interface)服务器,用于运行 Python 的 ASGI 应用。ASGI 是一个标准接口,用于异步Web应用程序和服务器之间的通信,它允许你编写异步代码,从而提高应用程序的性能和可伸缩性。
原创
发布博客 2024.05.26 ·
696 阅读 ·
24 点赞 ·
0 评论 ·
14 收藏

创新实训2024.05.12日志:建立易学知识库

生产机上的环境还没有配好,这里我记录下需要配置的环境。
原创
发布博客 2024.05.16 ·
741 阅读 ·
17 点赞 ·
0 评论 ·
21 收藏

创新实训2024.04.24日志:RAG技术初探

现在我们知道了如何获取一个向量数据库的服务。但在哪里使用它,如何使用它呢?正如先前RAG的Working Pipeline中所说,用户在请求大模型进行任务时,先通过检索向量数据库获取相似知识优化Prompt,再进行提问。那么这样一套流程,是如何映射到代码中的,我们是如何使用向量数据库提供的检索功能的?
原创
发布博客 2024.04.25 ·
1191 阅读 ·
27 点赞 ·
0 评论 ·
15 收藏

项目实训2024.04.12日志:Self-QA生成问答对

Self-QA(Self Question Answering)技术是一种自然语言处理(NLP)技术,它旨在通过生成问题并自行回答来增强机器对文本的理解。这种技术通常用于提升机器学习模型,尤其是深度学习模型在问答、文本理解和生成等领域的性能。Self-QA技术的核心思想是通过模型自身生成的问题来测试和提高其对文本的理解能力。在这个过程中,模型需要对给定的文本内容进行深入分析,生成相关的问题,然后使用文本内容来回答这些问题。通过这种方式,模型可以在没有额外标注数据的情况下进行自我训练和优化。
原创
发布博客 2024.04.12 ·
3157 阅读 ·
27 点赞 ·
0 评论 ·
57 收藏

创新实训2024.04.11日志:self-instruct生成指令

例如,”写一篇有关校园安全的短文“可以是一个合法的、我们期望LM直接回答的问题,但当他变成”写一篇有关下述主题的短文“,就成了一个指令,随后”校园安全“可以作为一个实例的输入(也即问题)。之后,根据step1:Instruction Generation,从种子指令中挑选5条,迭代生成的指令中挑选5条(可能会重复,但不用担心,最后我们会去重的)。一开始的初始语料还是需要我们自己搜集的。简单来说,传统的NLP技术需要涉及两大不可或缺的步骤:大型的预训练好的大语言模型以及人工搜集的语料(指令数据)。
原创
发布博客 2024.04.11 ·
1310 阅读 ·
17 点赞 ·
0 评论 ·
30 收藏

创新实训2024.04.07日志:提取QA对

创新实训2024.04.07日志:提取QA对
原创
发布博客 2024.04.08 ·
1531 阅读 ·
10 点赞 ·
2 评论 ·
29 收藏
加载更多