AGI小明同学-CSDN博客

原创大模型，开始“抢人”

随着大模型在国内这片土壤生根发芽，企业对相关人才的争夺也愈发激烈，在招聘软件上我们不难看到，不少企业甚至开出高年薪以抢夺算法、深度学习等高级技术人才。不过，在人才的争夺之外，还有那些问题是大模型落地过程中急需解决的？一起来看看作者的解读。大模型越来越火，抢人大战愈演愈烈。在AIGC、ChatGPT的带动下，大模型概念开始被广泛讨论。2023年还未过半，就已经有包括百度、阿里、腾讯、商汤、京东、科大讯飞等多家互联网、AI公司陆续宣布对大模型展开探索。

2024-07-15 11:40:45 674

原创【DataLoader】AI 框架基础技术之数据读取

数据读取是模型训练的一个基本组成部分。相比于复杂的网络算法设计，数据读取这个概念听起来简单且微不足道。然而，在实际业务落地中，数据读取往往是造成模型速度差和训练精度低的元凶。。今天，我们将做一个总述型的介绍，讲讲数据读取中不容小觑的技术点。

2024-07-15 11:39:47 1042

原创【大规模训练】混合专家系统

混合专家系统（Mixture of Experts, MoE）是在神经网络 (Neural Network, NN) 领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时，对于每个输入样本，整个网络都会参与计算。随着模型越来越大，训练使用的样本数据越来越多，训练的开销越来越难以承受。而 MoE 可以动态激活部分神经网络，从而实现在不增加计算量的前提下大幅度增加模型参数量。MoE 技术目前是训练万亿参数量级模型的关键技术。

2024-07-15 11:38:49 781

原创关于领导力的5大模型

领导”并非单纯等同于管理，发挥领导力有助于实现组织和团队的高速发展。本文将介绍关于领导力的5大模型。一起来看看吧。“领导”并非单纯地等同于“管理”。彼得·德鲁克认为：管理是把事情做好，领导力是做正确的事情。只有两者有效结合起来，才能够发挥出巨大的效用，实现组织和团队的高速发展。本文将介绍关于领导力的5大模型。

2024-07-13 10:57:48 1009

原创【AutoML】如何支持海量数据点的训练曲线可视化

本篇文章介绍如何支持海量数据点的训练曲线可视化海量数据点的训练曲线可视化对于观察和开发调试机器学习训练的意义实现支持海量数据可视化的技术实现思路支持海量数据点训练曲线可视化对于提升开发者的机器学习算法开发效率有着重要意义。本文从记录数据、存储数据和查看曲线三方面具体阐述了海量数据点训练曲线可视化在开发者具体工作流程中的需求要点，从训练端、服务端和 Web 端三个部分介绍了实现思路。希望本文对读者理解为什么要支持以及如何支持海量数据点的训练曲线可视化有帮助。

2024-07-13 10:56:40 906

原创【大规模训练】混合专家系统

混合专家系统（Mixture of Experts, MoE）是在神经网络 (Neural Network, NN) 领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时，对于每个输入样本，整个网络都会参与计算。随着模型越来越大，训练使用的样本数据越来越多，训练的开销越来越难以承受。而 MoE 可以动态激活部分神经网络，从而实现在不增加计算量的前提下大幅度增加模型参数量。MoE 技术目前是训练万亿参数量级模型的关键技术。

2024-07-13 10:55:22 736

原创端侧智能为什么有前途

可能才是难度最高的那个 —— 人工智能的价值并不直接取决于模型，而取决于在场景中，它能在多大程度上提升作业效率、降低人力成本。不同场景对人工智能模型「

2024-07-12 10:50:52 1013

原创 LLMs 千面郎君

从考察问题延展到考察知识点，再到如何优雅回答一面俱全，可以说是求职面试的必备宝典，每一部分都有上百页内容，接下来具体展示，完整版可直接下方扫码领取。为了助力朋友们跳槽面试、升职加薪、职业困境，提高自己的技术，本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。7.什么情况用 Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选?如何解决 PPO 的训练过程同时存在4个模型(2训练，2推理)，对计算资源的要求较高问题?模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力?

2024-07-12 10:49:16 1564

原创 LLMs 入门实战系列

尽管通过扩展数据集获得了性能提升，但 BLIP 的研究表明，对于视觉语言学习来说，有噪声的网络文本是次优的。对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。【LLMs 入门实战】 BBT-FinCUGE-Applications 学习与实战。【LLMs 入门实战 —— 十九】聚宝盆(Cornucopia) 模型学习与实战。【LLMs 入门实战 —— 二十二】 BLIP 模型学习与实战。

2024-07-12 10:39:23 1314

原创医疗大模型，巨头们的新赛场

随着大模型产品越来越多，落地和商业化也成为各个公司关注的核心问题。而除了通用的大模型之外，垂直行业的大模型数量也逐渐增多。比如医疗这种专业化较高的行业，大模型的加入，是否能成为新的加速器呢？说起近两年最热门的话题，那一定非大模型莫属了。众所周知，伴随着ChatGPT的强势出圈，全球范围内掀起了一波人工智能热潮，国内外的诸多企业都开足马力，推出了自己的大模型产品。而AI大模型产品的不断问世，也上演了一番“百模大战”的盛况。

2024-07-11 10:35:14 1253

原创【LLMs 入门实战 —— 七】Vicuna 模型学习与实战

UC伯克利学者联手CMU、斯坦福等，再次推出一个全新模型70亿/130亿参数的Vicuna，俗称「小羊驼」（骆马）。小羊驼号称能达到GPT-4的90%性能注：（实验功能：您可以指定–style rich，以便为某些非ASCII内容提供富格文本输出和更好的文本流质量。这在某些终端上可能无法正常工作。python代码解读复制代码init_kwargs {'torch_dtype': torch.float16}""""""if n == 0:return 0if n == 1:return 1。

2024-07-11 10:34:15 866

原创【关于 ChatGLM 微调】那些你不知道的事

本教程主要介绍对于 ChatGLM-6B 模型基于的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%，再通过模型量化、Gradient Checkpoint 等方法，最低只需要 7GB 显存即可运行。本节以数据集为例介绍代码的使用方法。硬件需求。

2024-07-11 10:29:50 433

原创 3年经验的B端产品经理，应该是什么水平？

问你一个问题：你觉得3年经验的B端产品经理，应该是什么水平？很多朋友可能也没有仔细想过，自己3年后应该达到一个什么水平？能做什么体量的业务？要能拿多少薪资？前几天和一个B端产品经理聊天，他做B端产品经理快3年了，见东家没有给他涨薪的苗头，想凭这几年的经验，换一份薪资更高的工作。没想到面试第一家公司就碰壁了，面试官的很多问题都没答上来。面试复盘时才发现，自己平时大部分时间都花在画原型、写文档、跟开发沟通改bug等事情上了。原型工具用的很6，而在业务梳理、产品规划、产品架构等方面能力毫无储备。

2024-07-10 10:35:44 1128

原创【关于 ChatGLM 微调】那些你不知道的事

本教程主要介绍对于 ChatGLM-6B 模型基于的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%，再通过模型量化、Gradient Checkpoint 等方法，最低只需要 7GB 显存即可运行。本节以数据集为例介绍代码的使用方法。硬件需求。

2024-07-10 10:33:33 653

原创 ChatGLM-6B入门

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。

2024-07-10 10:31:42 805

原创 2024下半年产品经理该如何破局？

产品经理发展到现在10多年，业内已经有标准的能力模型要求和业务标准，金九银十求职季即将来临，想做产品如何选择适合的赛道，大中小厂招人有哪些差异呢？如果你正准备向产品经理方向发展，一定要先做个产品职业发展剖析，找到属于自己的“机会”。首先，我们需要明确什么是“好机会”。在产品经理的范畴内，好机会不仅意味着诱人的薪资和福利，更包括行业趋势、公司规模以及岗位发展空间的综合考量。行业选择至关重要，它决定了你的职业发展方向和潜力。而公司规模则直接影响你的工作环境和成长速度。

2024-07-09 15:01:21 801

原创 GLM4大模型微调入门实战-命名实体识别（NER）任务

大模型指令微调（Instruction Tuning）是一种针对大型预训练语言模型的微调技术，其核心目的是增强模型理解和执行特定指令的能力，使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性，从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中，我的理解是，指令微调更多把LLM看作一个更智能、更强大的传统NLP模型（比如Bert），来实现更高精度的NLP任务。

2024-07-09 14:58:15 607

原创 Qwen2大模型微调入门实战-命名实体识别（NER）任务

大模型指令微调（Instruction Tuning）是一种针对大型预训练语言模型的微调技术，其核心目的是增强模型理解和执行特定指令的能力，使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性，从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中，我的理解是，指令微调更多把LLM看作一个更智能、更强大的传统NLP模型（比如Bert），来实现更高精度的NLP任务。

2024-07-09 14:56:53 1142 1

原创 Stable Diffusion文生图模型训练入门实战（完整代码）

（SD1.5）是由Stability AI在2022年8月22日开源的文生图模型，是SD最经典也是社区最活跃的模型之一。以SD1.5作为预训练模型，在火影忍者数据集上微调一个火影风格的文生图模型（非Lora方式），是学习的入门任务。显存要求 22GB左右在本文中，我们会使用模型在数据集上做训练，同时使用监控训练过程、评估模型效果。

2024-07-08 08:30:00 815

原创真假“长文本”之争：国产大模型市场激战正酣，营销新战场浮现

进入2024年这一国产大模型落地元年，长文本技术无疑成为了市场关注的焦点。然而，技术的优劣并非仅由长度决定，更需关注其在实际应用中的表现。对于大模型厂商而言，唯有在技术创新、用户体验和营销策略上不断突破自我，才能在激烈的市场竞争中立于不败之地。

2024-07-08 08:30:00 348

原创 Qwen2大模型微调入门实战-命名实体识别（NER）任务

大模型指令微调（Instruction Tuning）是一种针对大型预训练语言模型的微调技术，其核心目的是增强模型理解和执行特定指令的能力，使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性，从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中，我的理解是，指令微调更多把LLM看作一个更智能、更强大的传统NLP模型（比如Bert），来实现更高精度的NLP任务。

2024-07-08 06:30:00 610

原创 SaaS行业的AI化征程：穿越“大模型焦虑”，拥抱“AI自信”

在AI浪潮的推动下，SaaS行业正经历着前所未有的变革。面对“大模型焦虑”，SaaS厂商应主动出击，以战略性的AI应用策略为指引，充分利用开源资源与创新工具，深入挖掘行业Know-how的价值，构建起坚不可摧的竞争壁垒。同时，注重隐私安全保护与知识库的持续迭代，确保AI服务的稳健运行与持续优化。只有这样，SaaS厂商才能在AI化升级的道路上越走越远，最终实现产品与服务的全面转型升级。读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用如果你是零基础小白，想快速入门大模型是可以考虑的。

2024-07-05 11:36:53 585

原创 Stable-Baseline3 x SwanLab：可视化强化学习训练

Stable Baselines3 (SB3) 是一个强化学习的开源库，基于 PyTorch 框架构建。它是 Stable Baselines 项目的继任者，旨在提供一组可靠且经过良好测试的RL算法实现，便于研究和应用。StableBaseline3主要被应用于机器人控制、游戏AI、自动驾驶、金融交易等领域。你可以使用sb3快速进行模型训练，同时使用SwanLab进行实验跟踪与可视化。

2024-07-05 11:31:29 319

原创 Sentence Transformers x SwanLab：可视化Embedding训练

(又名SBERT)是访问、使用和训练文本和图像嵌入（Embedding）模型的Python库。你可以使用Sentence Transformers快速进行模型训练，同时使用SwanLab进行实验跟踪与可视化。

2024-07-05 11:30:31 248

原创吴恩达又一神作，吹爆这本书！

学习大模型肯定的看看这本书，如果你是零基础小白，想快速入门大模型是可以考虑的。一方面是学习时间相对较短，学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。

2024-07-04 15:02:32 1187

原创 GLM4指令微调入门实战（完整代码）

大模型指令微调（Instruction Tuning）**是一种针对大型预训练语言模型的微调技术，其核心目的是增强**模型理解和执行特定指令的能力，使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性，从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中，我的理解是，指令微调更多把LLM看作一个更智能、更强大的传统NLP模型（比如Bert），来实现更高精度的文本预测任务。

2024-07-04 14:59:29 415

原创 Qwen2大模型微调入门实战（完整代码）

是通义千问团队的开源大语言模型，由阿里云通义实验室研发。以Qwen2作为基座大模型，通过指令微调的方式实现高准确率的文本分类，是学习的入门任务。指令微调是一种通过在由（指令，输出）对组成的数据集上进一步训练LLMs的过程。其中，指令代表模型的人类指令，输出代表遵循指令的期望输出。这个过程有助于弥合LLMs的下一个词预测目标与用户让LLMs遵循人类指令的目标之间的差距。在这个任务中我们会使用模型在数据集上进行指令微调任务，同时使用SwanLab进行监控和可视化。本教程参考了。

2024-07-04 14:58:18 710

原创七种大模型微调方法：让你的Offer拿到爽

通过上述七种大模型微调方法，你可以根据具体任务和资源限制选择最适合的微调策略。无论是LoRA的高效微调、QLoRA的量化优化，还是适配器调整的灵活性，都能够帮助你更好地利用预训练模型的优势，从而在求职过程中脱颖而出，让offer拿到爽。希望本文能为你在人工智能领域的求职之路提供有力支持。读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用如果你是零基础小白，想快速入门大模型是可以考虑的。一方面是学习时间相对较短，学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。

2024-07-03 11:46:51 1411

原创 PyTorch MNIST手写体识别：SwanLab可视化训练

MNIST手写体识别任务是一个经典的计算机视觉问题，属于图像分类任务，目标是输入一个手写数字图像，AI模型可以正确预测数字是多少。MNIST数据集包含70,000个手写数字图像，每个图像大小为28x28像素。这些图像分为两部分：60,000个训练集和10,000个测试集。

2024-07-03 11:43:58 907

原创 Ultralytics x SwanLab：可视化YOLO模型训练

Ultralytics是YOLO官方团队推出的CV训练与推理框架，不仅支持目标检测任务，还支持分割、姿态识别、分类等更多任务。是一个深度学习实验管理与训练可视化工具，由西安电子科技大学团队打造，融合了Weights & Biases与Tensorboard的特点，能够方便地进行训练可视化、多实验对比、超参数记录、大型实验管理和团队协作，并支持用网页链接的方式分享你的实验。你可以使用Ultralytics快速进行目标检测模型训练，同时使用SwanLab进行实验跟踪与可视化。可视化结果(可以在直接预览。

2024-07-03 11:39:00 683

原创 BERT-IMDB电影评论情感分类实战：SwanLab可视化训练

基于BERT模型的IMDB电影评论情感分类，是NLP经典的Hello World任务之一。这篇文章我将带大家使用SwanLab、transformers、datasets三个开源工具，完成从数据集准备、代码编写、可视化训练的全过程。观察了一下，中文互联网上似乎很少有能直接跑起来的BERT训练代码和教程，所以也希望这篇文章可以帮到大家。

2024-07-02 11:48:41 272

原创 SwanLab快速上手（Wandb国产平替）

swanlab.cnSwanLab是一款开源、轻量级的AI实验跟踪工具，提供了一个跟踪、比较、和协作实验的平台，旨在加速AI研发团队100倍的研发效率。其提供了友好的API和漂亮的界面，结合了超参数跟踪、指标记录、在线协作、实验链接分享、实时消息通知等功能，让您可以快速跟踪ML实验、可视化过程、分享给同伴。相比于Tensorboard，SwanLab记录的信息更全、使用更方便。相比于Wandb，则访问速度更快，更方便于在国内使用，与主创团队交流更容易。

2024-07-02 11:46:48 829

原创 AI趋势引爆热议：程序员的下一个就业危机？

总体来说，AI程序员在增强现有程序员的生产力和代码质量方面提供了机遇，同时也给编程职业带来了挑战。需要注意的是，AI不太可能在近期内完全取代有经验的程序员，尤其在需要复杂决策和创新的任务上。不过，程序员作为职业群体，将需要不断适应新技术的发展，并找到与AI合作的最佳路径。当然，未来AI技术可能会进一步发展，有可能在某些特定的编程任务中达到高水平的自主性。程序员工作的某些方面可能会被自动化取代，但这可能会导致程序员角色的转变，而不是完全的取代。

2024-07-02 11:39:29 1069

原创 2024年：大模型领域掀起新一轮创新狂潮

在2024年，大模型（LLMs）领域再次迎来了突破性的发展，创新势头异常猛烈。近期，Anthropic公司发布的Claude 3系列模型在性能上全面超越了现有的大模型，标志着该领域又一次重大突破。大模型，作为一种人工智能技术的代表，其核心目标在于深入理解和生成人类语言。通过在大规模的文本数据上进行深度训练，这些模型能够执行多元化的任务，包括但不限于文本总结、语言翻译、情感分析等。如今，随着技术的不断进步，大模型的能力和应用范围正在不断扩大。

2024-06-30 16:58:58 788

原创使用RAG-GPT和Ollama搭建智能客服

Indexing（索引）：将文档分割成chunk，编码成向量，并存储在向量数据库中。Retrieval（检索）：根据用户输入query和向量数据库中chunks语义相似度检索与问题最相关的前k个chunk，形成本次问答的上下文。Generation（生成）：将原始问题和检索到的chunks整合形成合适的prompt一起输入到LLM中，让LLM输出与上下文有关的回答。用户发起query结合Bot实际应用场景，评估是否对query进行rewrite。

2024-06-30 16:54:23 328

原创 OpenIM Bot: 用LLM构建企业专属的智能客服

随着OpenIM的发展，技术和产品的咨询支持对国内、外的用户变得越来越重要。用户数量的迅速增加，使得OpenIM团队的支持人员面临巨大压力，因为支持人员的数量并没有同步增长。因此，找到一种高效的方法来服务用户成为团队当前迫切需要解决的问题。通过分析几十个微信群、Slack社区以及Gmail邮箱中收集到的用户问题，发现接近一半的问题其实可以在OpenIM官网的文档中找到答案。然而，由于官网文档内容庞大，目前已经积累了**800+**网页，用户往往难以快速定位所需信息。因此，构建一个智能客服系统，包含OpenI

2024-06-30 16:51:33 711

空空如也

空空如也