choose_c
码龄8年
关注
提问 私信
  • 博客:147,378
    147,378
    总访问量
  • 78
    原创
  • 22,588
    排名
  • 134
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:总有人要赢,那为什么不是我。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2016-08-10
博客简介:

choose_c的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    456
    当月
    0
个人成就
  • 获得186次点赞
  • 内容获得34次评论
  • 获得410次收藏
  • 代码片获得158次分享
创作历程
  • 11篇
    2024年
  • 6篇
    2023年
  • 11篇
    2022年
  • 20篇
    2021年
  • 8篇
    2020年
  • 23篇
    2019年
  • 1篇
    2017年
成就勋章
TA的专栏
  • langchain
    2篇
  • RAG
    4篇
  • 文本表示
    13篇
  • ACL2023
    2篇
  • 深度学习
    33篇
  • 大模型
    3篇
  • chatgpt
    1篇
  • shell
  • tensorflow
    2篇
  • 机器学习
    17篇
  • 自然语言处理
    43篇
兴趣领域 设置
  • 人工智能
    机器学习自然语言处理nlp
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

openai canvs平替:langchain.ai开源项目open-canvas

这篇博客介绍了一个名为“open-canvas”的开源项目,该项目由langchain.ai推出,旨在与ChatGPT合作进行写作和编程。博客详细描述了项目的实现逻辑,包括使用langgraph的流程图,说明了生成和修改内容(artifact)的各个节点及其输入输出关系。主要功能包括高亮选择、主题按钮的选择(针对代码和文本的不同主题),以及输入查询的处理。最后,博客提到用户风格和写作风格的反思过程,并鼓励读者访问项目的GitHub页面以获取更多细节。
原创
发布博客 2024.10.24 ·
897 阅读 ·
15 点赞 ·
0 评论 ·
9 收藏

Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

检索增强生成(RAG)使大型语言模型(LLMs)能够利用外部知识源。尽管LLMs处理更长输入序列的能力不断提升,但实证研究表明,生成输出的质量在检索段落数量增多时会先提升后下降。本文探讨了这一现象,识别出“硬否定”对性能下降的关键影响,并提出无训练和有训练的方法以增强基于长上下文 LLM 的 RAG 的鲁棒性。我们展示了检索重新排序的有效性,并探索了RAG特定的隐式微调和带有中间推理的微调方法。最后,对这些有训练方法的设计选择进行了系统分析,包括数据分布、检索器选择和训练上下文长度的影响。
原创
发布博客 2024.10.23 ·
744 阅读 ·
13 点赞 ·
0 评论 ·
8 收藏

预训练模型语义相似性计算(十一) - M3E和BGE

3.特定任务微调,在C-MTP有监督语料下训练,有监督语料量少但是质量高,为了缓解语料任务之间的矛盾,微调使用指令微调。对于每个小批,我们利用模型编码文本,收集输出的向量同时丢弃所有前向传播中的中间状态,最后汇总向量计算损失。2.通用微调,在C-MTP无监督语料下进行对比学习,没有特意挖掘负样本,而是以来批次内负样本,并通过增大批次从而增加嵌入的判别性。1.C-MTP,一个大型的文本嵌入训练集,包括了大量的非监督语料库和高质量标注的有监督语料库。3.最后将蒸馏损失和混合检索损失作为最后的损失。
原创
发布博客 2024.05.28 ·
1682 阅读 ·
10 点赞 ·
0 评论 ·
5 收藏

检索模型预训练方法:RetroMAE

1.一种新的MAE工作流,编码器和解器输入进行了不同的掩码。编码器编码的句子向量和解码器的掩码输入通过语言模型进行重构问句。2.非对称的模型结构,编码器拥有像BERT一样全尺寸的transformer,解码器只有一层的transformer。3.非对称的掩码比例,编码器:15%-30%,解码器:50%-70%。retroMAE这样设计的原因:1.auto-encoding对于编码质量的要求更高,传统的自回归更关注前缀,传统的MLM只掩盖一小部(15%)的输入。
原创
发布博客 2024.05.28 ·
787 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

微调LLM的理由

原文链接:https://www.freddyboulton.com/blog/when-to-finetune?continueFlag=03133d546a002fc4ba73dda1632eeebe考虑到大语言模型(llama 70b, mixtral, claude...)的能力在不断的增强的情况下,微调是否仍然是值得做的事。下面是值得微调的一些原因: 1.提示工程达不到预期 一开始要进行提示工程而不是微调,因为提示工程是实现最低可行性产品的最快途径。 但是在
原创
发布博客 2024.05.25 ·
457 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

大模型时代下两种few shot高效文本分类方法

大模型背景下,两种不依赖大模型和prompt构建框架的的few shot文本分类方法,setfit和fastfit能够高效地实现少镜头下的文本分类任务。
原创
发布博客 2024.05.13 ·
999 阅读 ·
4 点赞 ·
1 评论 ·
6 收藏

预训练模型语义相似性计算(七) -套娃向量表示和动态层的组合拳

尽管 MRL 的效率有所提高,但在获得嵌入之前仍然需要遍历所有 Transformer 层,这仍然是时间和内存消耗的主要因素。这提示考虑了固定数量的 Transformer 层是否会影响表示质量,以及是否使用中间层进行句子表示是可行的。它支持嵌入大小和Transformer层的弹性设置,提供了比MRL更大的灵活性和效率。有了这些优势,MRL 实现了基于准确性和计算约束的自适应部署。为了平衡计算成本和表示效果,使用了俄罗斯套娃向量表示(MRL)技术,传入维度参数后可以指定输出向量的维度大小。
原创
发布博客 2024.04.07 ·
337 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

真、开源LLM-OLMo

论文:Weights Code Data Evaluation Adaptation。
原创
发布博客 2024.02.11 ·
267 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

RAPTOR:树组织检索的递归抽象处理

检索增强语言模型可以更好的融入长尾问题,但是现有的方法只检索短的连续块,限制了整个文档上下文的整体理解。文本提出方法:递归对文本块进行向量化,聚类,摘要,从下到上构建一棵具有不同摘要级别的树。要解决的问题是,大多数现有的方法只检索几个短的、连续的文本块,这限制了它们表示和利用大规模话语结构的能力。这与需要整合文本多个部分知识的主题问题特别相关,前k个检索到的短连续文本将不包含足够的上下文来回答问题。为了解决这个问题,我们设计了一个索引和检索系统,该系统使用树结构来捕获文本的高级和低级细节。
原创
发布博客 2024.02.06 ·
1025 阅读 ·
23 点赞 ·
0 评论 ·
8 收藏

RAG常见七大坑

2.RAG v.s. 微调:RAG对于微调的优势:更新相关文档,控制用户访问文档权限。3.不在上下文:合并策略限制,检索到了答案相关文档,但没有合并进上下文。论文地址:https://arxiv.org/pdf/2401.05856.pdf。7.答案不完整:信息遗漏,答案在相关文档中没有被LLM完整提取。生成组件:使用检索到的信息作为相关上下文为用户查询生成答案。4.没有提取到:相关文档太多噪声和矛盾,LLM不能正常回答。2.遗漏排名靠前文档:答案在文档中,但文档的排名不够高。1.减少LLM的幻觉问题。
原创
发布博客 2024.01.20 ·
719 阅读 ·
6 点赞 ·
0 评论 ·
11 收藏

大规模语言模型从理论到实践

原创
发布博客 2024.01.20 ·
517 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

增强LLM:使用搜索引擎缓解大模型幻觉问题

论文题目:FRESHLLMS:REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION论文由Google、University of Massachusetts Amherst、OpenAI联合发布。大部分大语言模型只会训练一次,不会被频繁的更新,训练用到的知识会慢慢过时,所以它无法适应变化的世界。论文作者提出了动态问答的基准测试,称为FRESHQA,并且提出了一种简单的解决问题的方法,FRESHPROMPT。
原创
发布博客 2023.10.09 ·
1753 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

预训练模型语义相似性计算(十)--ACL2023:成分对比学习生成句子嵌入表示

很多基于对比学习的方法用在无监督语料中,通过最大化对齐同一句子的最小扰动,并且鼓励向量在广泛文本语料中的均匀分布。本文方法提出最大化文本与其短语成分的组合之间的对齐。对比学习框架在计算机视觉中的成功很大程度上是由于用于创建正对时增强的多样性,这使得原始示例的身份保持不变,同时减少输入空间中的成对互信息。将相同的训练目标应用于句子的嵌入表示时,通过离散增强方法构造正向对没有效果。之前的研究通过消融实验可知,这样的增强对会损害相似性任务的下游性能。
原创
发布博客 2023.08.12 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

OpenAI的编码方式Tiktoken

以上的不一致问题只会出现在messages中的message包含了name关键, 也就是说在使用function这个role的时候才会发生,并且每添加一个有function的message,最后的token差距增加2。所以可以看出问题应该是出现在role为function的message环节的计算上,我猜测是gpt-3.5-turbo-0613模型使用了和gpt-3.5-turbo-0301一样的tokens_per_name,使用了-1而不是1,所以会出现2的差距。
原创
发布博客 2023.07.31 ·
1709 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

OpenAI的Function calling 和 LangChain的Search Agent

Agent可以使用多个工具,并将一个工具的输出用作下一个工具的输入。follow up是gpt的输出,表示需要search tool搜索的问题, Intermediate answer 则为search tool的答案,循环多次之后得到最终答案。"时,gpt做出了进行调用get_info_from_web函数的决定,并且调用的参数为"query": "杭州天气"。以下是search agent的例子。调用第2步中gpt输出的参数执行相应的函数,获得中间结果。3.执行gpt的决定,获得回答问题的中间结果。
原创
发布博客 2023.07.20 ·
3616 阅读 ·
1 点赞 ·
3 评论 ·
6 收藏

LangChain中的output parsers

生成语言模型由于生成不可控,所以生成的自然语言是非结构话的文本。而prompt的出现使得用户可以将期望的输出文本格式进行约束和规范。LangChain中的output parsers模块可以使模型输出的期望的结构化文本,使用的正是prompt操作。
原创
发布博客 2023.07.19 ·
2461 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ACL2023:电商中的商品问答综述

PQA的四种方法、数据、挑战、优缺点总结:四种方法的示意图:常见的PQA数据集:
原创
发布博客 2023.07.13 ·
273 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Milvus的索引方式

查询时,查询向量分端后与聚类中心计算距离,各段相加后即为最终距离。使用对称距离(聚类中心之前的距离)不需要计算直接查表,但是误差回更大一些。先对空间的点进行聚类,查询时先比较聚类中心距离,再找到最近的N个点。SQ8:对向量做标量量化,浮点数表示转为int型表示,4字节->1字节。IVF-SQ8:量化操作,disk cpu GPU 友好。IVF-FLAT:量化操作, 准确率和速度的平衡。HNSW:基于图的索引,高效搜索场景。IVF-PQ:快速,但是准确率降低。ANNOY:基于树的索引,高召回率。
原创
发布博客 2022.12.01 ·
1321 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

中文NER的SOTA:RICON

规律感知模块 span表征 用于实体类型的预测。规律判断模块 span上下文表征 判断是否是实体。
原创
发布博客 2022.08.09 ·
505 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

OOD论文:Revisit Overconfidence for OOD Detection

重新审视OOD检测的过度自信:基于自适应类相关阈值的重分配对比学习。
原创
发布博客 2022.08.09 ·
1280 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏
加载更多