数据学习(Datalearner)
码龄15年
关注
提问 私信
  • 博客:346,656
    社区:1,153
    347,809
    总访问量
  • 52
    原创
  • 89,528
    排名
  • 517
    粉丝
  • 1
    铁粉
  • 学习成就

个人简介:关注数据科学 关注科技行业 关注人工智能 关注一切促进人类生活美好的新技术

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2009-08-08
博客简介:

DataLearnerAI

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    411
    当月
    1
个人成就
  • 获得535次点赞
  • 内容获得37次评论
  • 获得1,136次收藏
创作历程
  • 11篇
    2024年
  • 20篇
    2023年
  • 1篇
    2019年
  • 4篇
    2018年
  • 17篇
    2017年
成就勋章
TA的专栏
  • 大模型
    22篇
  • 数据学习
    10篇
  • 爬虫
    4篇
  • 编程
    7篇
  • 移动开发
  • 统计
    1篇
  • 网站系统
    2篇
兴趣领域 设置
  • 人工智能
    数据挖掘语音识别计算机视觉机器学习人工智能深度学习自然语言处理
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数

版本,架构与最小的Phi-3-mini-3.8B相同,但是训练的epoch更多,训练的数据量和Phi-3-small一样,4.9万亿tokens。今天,微软发布了第三代Phi系列大模型,最高参数规模也到了140亿,其中最小的模型参数38亿,评测结果接近GPT-3.5的水平。微软发布了第三代Phi模型,这一代的模型最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。在这其中,微软的Phi系列模型是最具有竞争力的。
原创
发布博客 2024.04.27 ·
2860 阅读 ·
23 点赞 ·
0 评论 ·
16 收藏

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B!

最近2个月,国外开源的DBRX、Mixtral-8×22B-MoE是最新的超过1000亿参数规模的模型。而国内此前开源领域最大的参数模型是720亿参数规模的Qwen1.5-72B规模和650亿参数的深圳元象科技开源的XVERSE-65B。根据官方公布的评测结果,Qwen1.5-110B模型的评测结果略略超过Llama-3-70B和Mixtral-8×22B。阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B!
原创
发布博客 2024.04.27 ·
1533 阅读 ·
16 点赞 ·
0 评论 ·
8 收藏

开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二!

官方透露的信息非常多,Llama3系列是目前为止最强的开源大语言模型,未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!Llama3系列模型是MetaAI开源的第三代大语言模型,本次发布的包含2个不同参数规模的版本,一个是80亿参数的LLama3-8B,另一个是700亿参数规模的Llama3-70B。这个分数仅次于Claude3-Opus的95分,超过GPT-4,全球第二,是目前开源大模型中得分最高的一个。其中的代码数据集高4倍!需要注意的是,这里的4000亿参数版本正在训练中,还没完成。
原创
发布博客 2024.04.21 ·
1668 阅读 ·
14 点赞 ·
0 评论 ·
20 收藏

Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。这是MetaAI开源的第三代大语言模型,也是当前最强的开源模型。在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。未来,如果4000亿参数规模的Llama3-400B也开源的话,那无疑是给闭源模型企业一颗巨大的炸弹。
原创
发布博客 2024.04.21 ·
2518 阅读 ·
32 点赞 ·
0 评论 ·
7 收藏

重磅!阿里巴巴开源自家首个MoE技术大模型:Qwen1.5-MoE-A2.7B,性能约等于70亿参数规模的大模型Mistral-7B

阿里巴巴宣布开源其首个基于MoE技术的大规模语言模型——Qwen1.5-MoE-A2.7B,这一举措标志着开源社区在大模型领域的又一次重大进展。
原创
发布博客 2024.03.29 ·
1179 阅读 ·
4 点赞 ·
1 评论 ·
3 收藏

马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

继Grok-1开源之后,xAI宣布了Grok-1.5的内测消息,并预告即将全面商用,这一消息无疑为AI技术爱好者和开发者社区带来了新的兴奋点。
原创
发布博客 2024.03.29 ·
1171 阅读 ·
10 点赞 ·
0 评论 ·
6 收藏

重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一

本次发布的Gemini 1.5是Pro版本的更新,官方宣传Gemini 1.5 Pro的能力已经接近此前的Gemini Ultra 1.0的水平。按照此前发布的信息看,Gemini Pro的参数量应该是比Gemini Ultra低一个数量级。谷歌官方在介绍Gemini 1.5 Pro的时候非常强调它的超长上下文和多模态能力,它可以直接从402页的阿波罗登月记录中推断对话、事件和其中的细节,展现了非常强大的推理能力和超长上下文的理解能力。
原创
发布博客 2024.02.16 ·
1009 阅读 ·
7 点赞 ·
0 评论 ·
15 收藏

OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定

上图展示了更高层次的Sora方法的原理,通过首先将视频压缩到低维的潜在空间,然后将这些表示分解为时空patches,OpenAI Sora实现了视频到patches的转换。Sora是OpenAI开发的一款先进AI模型,它能根据文本指令创造出高质量、逼真的视频,不仅拓宽了创作的边界,还融合了安全措施和社区的反馈。OpenAI宣布发布全新的Diffusion大模型Sora,这是一个可以生成最长60秒视频的视频生成大模型,最大的特点是可以生成非常逼真的电影画面版的视频。实例2:淘金热期间加利福尼亚州的历史录像。
原创
发布博客 2024.02.16 ·
1003 阅读 ·
12 点赞 ·
0 评论 ·
9 收藏

第二代Qwen大模型发布,阿里巴巴一口气开源了30个不同参数规模的模型

但是现在出来的Qwen-1.5与Qwen2-Beta在评测结果上是差不多的,所以这里的Qwen1.5应该就是Qwen2-Beta改名的结果。而这6个不同参数规模版本的模型,每一个都开源了基础预训练版本、聊天优化版本、Int4量化、Int8量化以及AWQ版本,所以相当于每一个参数规模的模型都有5个版本,因此一共发布了30个版本的模型!这次阿里发布的模型应该有30个,数量非常多包含6个不同参数规模的版本,分别是5亿、18亿、40亿、70亿、140亿和720亿。
原创
发布博客 2024.02.06 ·
3569 阅读 ·
5 点赞 ·
0 评论 ·
23 收藏

阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。而昨天,Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码,包含了Qwen2的相关信息,这意味着Qwen2模型即将到来。从提交的代码信息看,Qwen2系列模型包含了很多不同的尺寸,每一个参数规模的模型都包含基座模型和聊天对齐的chat版本。而目前md文件透露的信息看,70亿参数规模的Qwen2-7B-beta和Qwen-7B-Chat-beta是最早发布的第二代Qwen模型。
原创
发布博客 2024.01.16 ·
1795 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs

这是在智谱AI开发者大会上推出的新一代基座大语言模型,GLM4相比较此前最大的特点是三个变化:性能全面提升、上下文长度更长、支持更强的多模态能力。GLM4(GLM4)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习 (DataLearner)
原创
发布博客 2024.01.16 ·
7448 阅读 ·
21 点赞 ·
0 评论 ·
24 收藏

2023年度巨献,一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2023年度巨献,一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜 | 数据学习者官方网站(Datalearner)2022年11月底,ChatGPT横空出世,全球都被这样一个“好像”有智能的产品吸引力。随后,工业界、科研机构开始疯狂投入大模型。在2023年,这个被称为大模型元年的年份,有很多令人瞩目的AI产品与模型发布。
原创
发布博客 2023.12.29 ·
1255 阅读 ·
20 点赞 ·
0 评论 ·
21 收藏

6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择

本文原文来自DataLearnerAI官方网站:6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择 | 数据学习者官方网站(Datalearner)Sebastian Raschka是LightningAI的首席科学家,也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的见解,也贡献了许多有价值的内容。在最新的一期推文中,他总结了6种大模型的使用方法,引起了广泛的讨论。
原创
发布博客 2023.12.29 ·
2587 阅读 ·
11 点赞 ·
0 评论 ·
29 收藏

不同参数规模大语言模型在不同微调方法下所需要的显存总结

这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。推理现存与微调显存实际上不会有什么优势(根据实际测试,Mixtral 8×7B MoE推理最少也要90多G的显存)。不过,这也会降低一点精度。大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务,识别特定的指令等。但是大模型的微调需要的显存较高,而且比较难以估计。与推理不同,微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。
原创
发布博客 2023.12.24 ·
2724 阅读 ·
8 点赞 ·
0 评论 ·
13 收藏

准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志

但是,对于一个几百万行的代码系统,可能需要AI系统根据前面1000行代码的人类评估过程来推广,去自行评估这个几百万行代码的系统是否准确遵从了人类的意图且符合安全要求。同时,OpenAI也宣布投资1000万美元,在全球招募团队做这方面的研究,通过的团队可以获得10万-200万美元的资助,进行超级对齐的研究。为此,OpenAI提出这种超级对齐技术,希望可以用较弱的模型来对齐较强的模型。今天,OpenAI在其官网上发布了一个全新的研究成果:一个利用较弱的模型来引导对齐更强模型的能力的技术,称为由弱到强的泛化。
原创
发布博客 2023.12.16 ·
1050 阅读 ·
21 点赞 ·
0 评论 ·
17 收藏

MistralAI开源全球首个(可能)基于MoE(Mixture of Experts)技术的大模型:预训练下载链接全球直发,但实测表现似乎一般!

MistralAI是一家法国的大模型初创企业,其2023年9月份发布的Mistral-7B模型声称是70亿参数规模模型中最强大的模型,并且由于其商用友好的开源协议,吸引了很多的关注。| 数据学习者官方网站(Datalearner)MistralAI目前没有公布Mistral-7B-MoE这个模型的其它细节,而根据公布的磁力下载链接中的文件夹名称,这个模型目前也被称为。的大模型这是由8个70亿参数规模专家网络组成的混合模型(Mixture of Experts,MoE,混合专家网络)。
原创
发布博客 2023.12.09 ·
1874 阅读 ·
57 点赞 ·
0 评论 ·
23 收藏

如何提高大模型在超长上下文的表现?Claude实验表明加一句prompt立即提升效果~

如果模型在训练过程中接收到避免错误和不准确声明的强烈信号,它可能会在实际应用中表现出更多的谨慎。Claude 2.1版本的模型上下文长度最高拓展到200K,也是目前商用领域上下文长度支持最长的模型之一。但是,在模型发布不久之后,有人测试发现。而今天,Anthropic官方发布了一个博客解释,这个不是因为Claude模型能力不行,而是测试的方式不太好。可以看到,当文档长度超过20K之后,表现就非常差,与Anthropic官方的说法差别很大。”即可大幅提升模型回答效果,改进模型不愿意回答不相关内容的水平。
原创
发布博客 2023.12.08 ·
1027 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

来自OpenAI的官方解释:ChatGPT中的GPTs与Assistants API的区别是什么?有什么差异?

简单来说,前者是界面话的操作,后者则是针对开发者提供的接口。OpenAI发布的产品中,有2个产品可以用来将GPT当作一个类似AI Agent工具使用,同时支持接入自定义的接口和数据。那就是GPTs和Assistant API,前者可以在界面直接操作,后者则是一个API,两者功能接近,为了让大家更加清晰理解二者区别,OpenAI官方最近发布了二者的解释。来自OpenAI的官方解释:ChatGPT中的GPTs与Assistants API的区别是什么?它可以非常简单,也可以做的非常复杂。
原创
发布博客 2023.12.08 ·
3030 阅读 ·
10 点赞 ·
0 评论 ·
9 收藏

ChatGPT可能即将发布新版本,带有debug功能:支持下载原始对话、可视化对话分支等

上图是Debug功能的隐藏开关,并不是所有用户都能看到,而是代码隐藏在网页端复现结果。在对话界面的右上角有一个开关按钮,点击之后会唤起右侧的side bar功能,显示是Debug功能栏。AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性,可以提高ChatGPT对话的问题调试功能。还有一个关于ChatGPT Team版本计划的信息,尽管很早就有截图,但是似乎延迟发布了。不过由于ChatGPT Plus用户已经有128K的GPT了,但是GPT-4的消息额度变少了,那么这个。
原创
发布博客 2023.12.07 ·
4587 阅读 ·
23 点赞 ·
0 评论 ·
21 收藏

谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型

这部分和OpenAI一样,没有过多的细节,只知道这个模型是Decoder-only的transformer模型,但是针对谷歌的TPU和大规模训练做了优化。这是一系列的多模态的大模型,在各项评分中超过了GPT-4V,可能是目前最强的模型。Gemini-Pro是比Ultra小一点版本的模型,也没有公布参数,据猜测在1000亿以上,在自然语言理解、可视化、分析等方面工作能力较强;Gemini分为三个版本,最大的是Gemini-Ultra,然后是Gemini-Pro,最小的是Gemini-Nano;
原创
发布博客 2023.12.07 ·
1341 阅读 ·
22 点赞 ·
0 评论 ·
19 收藏
加载更多