AI前沿技术
文章平均质量分 76
总结AI领域LLM等相关技术
Itfuture03
只为造就未来梦想!
展开
-
Spring AI之后,阿里推出Spring Cloud Alibaba AI,接入体验篇——Java也能方便用 AI
通义接入是基于阿里云 灵积模型服务,灵积模型服务建立在“模型即服务”(Model-as-a-Service,MaaS)的理念基础之上,围绕 AI 各领域模型,通过标准化的API提供包括模型推理、模型微调训练在内的多种模型服务。Spring AI 的灵感来自著名的 Python 项目,如 LangChain 和 LlamaIndex,但 Spring AI 并不是这些项目的直接移植复制。,包括业界大多数主流大模型服务等,如OpenAI,Microsoft,Amazon,Google和Huggingface;原创 2024-06-28 15:58:08 · 1129 阅读 · 0 评论 -
Ai框架Spring Cloud Alibaba Ai引入maven依赖报错Unresolved dependency: ‘org.springframework.ai:spring-ai-core:
原始的Spring AI并没有国内相关大模型的接入,对国内开发者不太友好。总的来说,Spring Cloud Alibaba AI 目前基于Spring AI 0.8.1版本 API 完成通义系列大模型的接入。于是,根据官方文档进行一次尝鲜体验!原创 2024-06-28 11:29:46 · 649 阅读 · 0 评论 -
关于openai和chatgpt、gpt-4、PyTorch、TensorFlow 两者和Transformers的关系
所以说,PyTorch和TensorFlow是深度学习框架,而Transformers是一个基于这两个框架之一的库,专注于提供预训练的Transformer模型和相关工具。近两年,随着人工智能的火爆,不论通过哪个渠道,相信我们都听说过openai、gpt等这类名词,那么它们到底是什么意思,请看下文。开发的深度学习框架,它提供了丰富的工具和API,使得构建和训练神经网络变得更加简单和高效。Transformers库为自然语言处理任务提供了方便的API和工具,使得使用和微调预训练模型变得更加简单和高效。原创 2024-04-12 10:42:06 · 1073 阅读 · 1 评论 -
【AI模型-机器学习工具部署】远程服务器配置Jupyter notebook或jupyter lab服务
随着AI人工智能的崛起,机器学习、深度学习、模型训练等技术也慢慢泛化,java开发有idea,web开发有vscode,那么AI开发神器肯定离不开jupyter lab(基础版jupyter notebook)),这里可以用vim或者用相关ftp工具下载下来修改再覆盖,或者vscode ssh远程连接直接修改.这里你输入的密码,也是后面登入你服务器jupyter的密码,需牢记!python3进入交互模式 ,见图输入以下内容,设置好密码过后。会自动生成一个Verify password复制保存下来!原创 2024-03-26 11:01:55 · 914 阅读 · 0 评论 -
开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?
很明显,Gemma代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢Meta和Mistral;关于大模型的开源和闭源,我认为如果想发展大模型还是得比模型规模,这方面开源模型相对闭源模型出于明显劣势,短期内难以追上GPT 4或GPT 4v,且这种类型的大模型,即使是开源也只能仰仗谷歌或者Meta这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起,国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,更提供了modelscope这样的平台促进技术交流,属实难得。原创 2024-02-22 18:12:21 · 1309 阅读 · 0 评论 -
【根据loss曲线看模型微调效果】如何使用loss曲线诊断机器学习模型性能
如下图所示,overffit时候training loss一直在不断地下降,而validation loss在某个点开始不再下降反而开始上升了,这就说明overfit,我们应该在这个拐点处停止训练。下图也是Underfit情况,这种情况的特点是在训练结束时候training loss还在继续下降,这说明还有学习空间,模型还没来得及学就结束了。然后我们就得到了一个Underfitting模型,如下图所示,在训练结束的时候training loss还在下降,这说明模型还未学习充分。原创 2024-01-18 17:52:51 · 4442 阅读 · 1 评论 -
大模型基础:PT预训练,SFT有监督微调 基础知识
记住进入transfomer前后数据的维度不会发生变化,把transfomer当作一个黑盒,也就是transformer(X)的维度还是(1,10,768),接下来就是基于它来进行预测了,因为要预测哪个词,词的可能情况就是词表的大小,所以做的就是一个分类任务,预测下一个token是词表中的哪一个(词表中的每一个词当作一个类别)。现在模型的输入的维度为(1,10),第一维为batch_size,然后经过embedding层后变为(1,10,768),这里假设embedding的维度为768。原创 2024-01-18 15:04:51 · 4268 阅读 · 2 评论 -
【大模型评测】常见的大模型评测数据集
同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测的模型的主观题预测结果,进行我们人工评分的流水线操作。表述为带有二元选项的填空任务,目标是为需要常识推理的给定句子选择正确的选项。MMLU 是一个包含了 57 个子任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,有效地衡量了人文、社科和理工等多个大类的综合知识能力。原创 2024-01-17 10:16:49 · 7791 阅读 · 0 评论 -
Qwen-7B-Chat-lnt4微调报错:Found modules on cpu/disk. Using Exllama or Exllamav2 backend requir...解决方法
需要修改一下模型下的文件:config.json。原创 2024-01-10 16:04:56 · 1950 阅读 · 1 评论 -
使用ModelScope运行或者微调模型&ModelScope国内一个“模型即服务”(MaaS)平台
针对不同任务、不同模型抽象了统一简洁的用户接口,3行代码完成推理,10行代码完成模型训练,方便用户使用ModelScope社区中多个领域的不同模型,开箱即用,便于AI入门和教学。构造以模型为中心的开发应用体验,支持模型训练、推理、导出部署,方便用户基于ModelScope Library构建自己的MLOps.针对模型推理、训练流程,进行了模块化的设计,并提供了丰富的功能模块实现,方便用户定制化开发来自定义自己的推理、训练等过程。原创 2024-01-05 15:15:34 · 3279 阅读 · 0 评论 -
【Hugggingface.co】关于huggingface.co无法访问&大模型下载运行报错解决We couldn‘t connect to ‘https://huggingface.co‘ to.
如果你忘了打开tmux窗口也没关系,可以按ctrl-z暂停任务,再打开tmux,重新运行python model_download.py --repo_id 模型id 这行下载代码,可继续下载。如图所示,会给出相应的下载代码:python model_download.py --repo_id baichuan-inc/Baichuan2-7B-Chat。请添加–token hf_***参数,其中hf_***是 access token,请在huggingface官网这里获取。速度大约是2M/s.原创 2024-01-05 10:53:16 · 29496 阅读 · 11 评论