AI新时代
文章平均质量分 86
本专栏致力于深入探讨人工智能领域的核心技术,包括机器学习的基础理论、深度学习的最新进展、神经网络的架构设计与优化方法,以及大模型的应用与挑战。
谷哥的小弟
历任研发工程师,技术组长,项目经理;曾于2016年、2020年两度荣获CSDN年度十大博客之星。
十载寒冰,难凉热血;多年过去,历经变迁,物是人非。
然而,对于技术的探索和追求从未停歇。
坚持原创,热衷分享,初心未改,继往开来!
展开
-
《Deep Residual Learning for Image Recognition》论文导读
随着深度学习的发展,神经网络的深度逐渐成为影响模型性能的关键因素。然而,随着网络深度的增加,训练过程中的梯度消失和模型退化问题愈发严重,这限制了神经网络性能的进一步提升。《Deep Residual Learning for Image Recognition》这篇论文通过引入残差学习的思想,有效解决了这些问题,为深度学习领域带来了新的突破。原创 2024-09-16 02:15:00 · 603 阅读 · 0 评论 -
《ImageNet Classification with Deep Convolutional Neural Networks》论文导读
《ImageNet Classification with Deep Convolutional Neural Networks》是一篇在深度学习领域具有重要影响力的论文,由Alex Krizhevsky、Ilya Sutskever和Geoffrey E. Hinton等人撰写。该论文主要介绍了利用深度卷积神经网络(Deep Convolutional Neural Networks,简称CNNs)在ImageNet数据集上进行图像分类的研究,并取得了显著的效果。原创 2024-09-16 01:45:00 · 1244 阅读 · 0 评论 -
《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》论文导读
深度神经网络在训练过程中,由于前面层的参数变化,会导致后面层输入的分布发生变化,这种现象被称为“Internal Covariate Shift”(内部协变量偏移)。这种偏移会使得网络训练变得复杂,需要较低的学习率和谨慎的参数初始化,从而减慢了训练速度,并可能导致模型难以收敛。为了解决这个问题,作者提出了Batch Normalization方法。原创 2024-09-09 19:32:55 · 889 阅读 · 0 评论 -
《A Few Useful Things to Know about Machine Learning》论文导读
《A Few Useful Things to Know about Machine Learning》这篇论文为我们提供了关于机器学习的全面指导。通过深入理解机器学习的基本原理和核心要素,关注数据质量和特征工程的关键性,掌握模型选择与评估的实用技巧,并遵循实用建议和陷阱警示,我们能够更加有效地应用机器学习算法来解决实际问题,推动机器学习领域的持续发展和创新。原创 2024-09-09 19:27:13 · 718 阅读 · 0 评论 -
《Attention Is All You Need》论文导读
《Attention Is All You Need》这篇具有里程碑意义的论文,彻底改变了自然语言处理(NLP)的研究和应用格局。在此之前,循环神经网络(RNN)及其变体,如长短期记忆网络(LSTM),是处理序列数据的标配。然而,RNN系列模型在处理长序列时存在梯度消失或爆炸的问题,且其顺序处理的特性限制了并行计算的能力。卷积神经网络(CNN)虽然在某些NLP任务上有所应用,但同样面临捕获长距离依赖关系的挑战。正是在这样的背景下,Transformer模型应运而生,凭借其独特的自注意力机制,一举成为NLP领原创 2024-09-09 19:11:19 · 837 阅读 · 0 评论 -
机器学习深度学习
深度学习作为机器学习领域的一个重要分支,其核心在于构建由多层(深层)的人工神经网络组成的计算模型,这些模型能够学习数据的多层次抽象表示。深度学习的概念最早可以追溯到1943年Warren McCulloch和Walter Pitts提出的MP模型,以及1949年Donald Hebb提出的Hebb学习规则,这些是神经网络和深度学习的早期理论基础。原创 2024-09-09 08:41:50 · 892 阅读 · 0 评论 -
机器学习无监督学习
无监督学习是一种数据挖掘技术,它允许机器通过观察数据来学习数据的内在结构和模式,而无需预先标注的输出变量。这种方法特别适用于数据探索和发现隐藏在数据中的信息。模式识别:算法能够识别数据中的模式,如相似性或关联性。聚类:将数据点分组,使得同一组内的数据点相似度高,不同组间的数据点相似度低。降维:在保留数据主要特征的同时,将高维数据投影到低维空间。异常检测:识别数据中的异常或离群点。原创 2024-09-09 08:41:32 · 789 阅读 · 0 评论 -
机器学习强化学习
强化学习是一种目标导向的机器学习方法,它使智能体能够在环境中通过试错学习最优行为策略。这种学习过程涉及到智能体与环境之间的交互,智能体根据当前状态选择动作,并从环境中获得奖励或惩罚,以此来调整自己的行为。状态(State):智能体所处的环境状态,是决策的依据。动作(Action):智能体在给定状态下所采取的行动。奖励(Reward):智能体完成动作后从环境中获得的反馈,用于评估动作的好坏。策略(Policy):从状态到动作的映射,表示智能体在特定状态下应采取的动作。原创 2024-09-09 08:41:13 · 724 阅读 · 0 评论 -
大模型工作交互过程
大模型的工作流程是一个复杂而精细的过程,它涉及从接收输入到生成输出的多个步骤。比如:你提问:中国的首都是哪里?它回答:中国的首都是北京作为例子,大模型的工作流程可以大致归纳为以下几个阶段。原创 2024-09-02 12:31:19 · 536 阅读 · 0 评论 -
Transformer模型《Attention Is All You Need》
2017年,谷歌大脑团队在论文《Attention Is All You Need》中首次提出了Transformer模型,该模型摒弃了传统的循环神经网络(RNN)结构,转而采用注意力机制来处理序列数据。这一创新设计使得模型能够更有效地捕捉长距离依赖关系,为自然语言处理(NLP)领域带来了革命性的变革。原创 2024-09-02 12:30:49 · 904 阅读 · 0 评论 -
大语言模型Token
Token是自然语言处理(NLP)和机器学习中的基本单元,它代表文本中的一个有意义的片段,如单词、短语或子词。在大型语言模型(LLM)中,Token是模型理解和生成文本的基础。Token的定义和使用依赖于模型架构和处理语言的特性。原创 2024-09-02 12:30:21 · 662 阅读 · 0 评论 -
大模型嵌入向量Embeddings
Embeddings在机器学习领域中扮演着至关重要的角色。它是一种将离散数据元素,如文本中的单词或图像中的像素点,映射到连续的向量空间的技术。这种映射不仅使数据可进行数学运算,还极大地丰富了数据的表达能力。在自然语言处理(NLP)中,词嵌入通过将词语转换为向量,使得语义上相似的词在向量空间中彼此接近,从而捕捉词语之间的语义关系。例如,通过Word2Vec模型,我们能够发现“king”和“queen”在向量空间中的相对位置接近,从而反映出它们之间的语义联系。原创 2024-08-26 13:45:28 · 932 阅读 · 0 评论 -
大模型提示词工程
随着大型语言模型的快速发展,如GPT系列模型,其强大的语言生成和理解能力为众多应用场景提供了可能。然而,由于模型本身的复杂性和不确定性,直接使用模型往往难以得到精确且符合特定需求的输出。因此,大模型提示词工程(Prompt Engineering)作为一种引导大型语言模型(LLM)行为的技术应运而生,近年来在AI领域引起了广泛关注。提示词工程(Prompt Engineering)是一种通过精心设计和优化输入给AI模型的提示词(Prompt),来引导模型产生期望输出结果的技术。原创 2024-08-26 13:45:09 · 347 阅读 · 0 评论 -
大模型参数
大模型的参数,指的是在大规模机器学习或深度学习模型中,用于定义和调整模型行为的数值。这些参数在模型训练过程中被不断优化,以使模型能够更准确地预测或分类输入数据。权重(Weights)权重是神经网络中最重要的参数,它们连接了不同层之间的神经元。每个权重都有一个初始值,这个值在训练过程中会根据损失函数进行更新。权重的更新是通过反向传播算法实现的,它根据损失函数的梯度来调整权重。偏置(Biases)偏置是神经元激活函数的额外输入,它允许激活函数在没有输入的情况下也能产生输出。原创 2024-08-26 13:44:48 · 501 阅读 · 0 评论 -
自然语言处理NLP四范式
自然语言处理(NLP)的四范式是NLP领域发展历程中的重要里程碑,它们代表了NLP技术从传统方法到现代深度学习技术的转变。第一范式是非神经网络时代的完全监督学习,它依赖于人工设计的特征和规则,需要大量的人力资源和专业知识。第二范式则是基于神经网络的完全监督学习,它利用神经网络模型自动从数据中学习特征表示,显著提高了模型的性能和泛化能力。第三范式是预训练加精调的范式,它先在大的无监督数据集上进行预训练,然后在下游任务的特定数据集上进行微调,降低了对标注数据的需求。原创 2024-08-20 15:16:23 · 766 阅读 · 0 评论 -
大模型项目开发流程
大型模型项目的开发是一个复杂而系统的过程,涵盖了从数据采集到模型测试与评估的多个关键环节。项目团队需深入理解业务需求和项目目标,以确保数据的多样性和代表性,并进行严格的质量检查。数据清洗和预处理是确保数据质量的关键步骤,包括处理缺失值、重复值和异常值,以及数据的规范化、标准化或归一化处理。数据标注对于监督学习任务至关重要,需要制定详细的标注规范,并采取多种措施确保标注的准确性和一致性。数据划分、模型设计、初始化、训练和验证等步骤共同构成了模型开发的核心流程,旨在构建有效且泛化能力强的模型。原创 2024-08-19 08:40:20 · 729 阅读 · 0 评论 -
自然语言处理NLP
自然语言处理(Nature Language Processing,NLP) 是人工智能的一个应用领域,它利用机器学习和深度学习技术来处理和分析自然语言(汉语、英语、德语等)数据。NLP利用机器学习和深度学习技术来处理和分析自然语言数据。这是因为人类语言是非常复杂和多样的,传统的基于规则的方法往往难以处理其复杂性和变化性。而机器学习和深度学习技术能够从大量数据中自动学习规律和特征,从而更有效地处理自然语言数据。原创 2024-08-19 08:40:01 · 306 阅读 · 0 评论 -
深度学习和神经网络
神经网络是一种受生物神经系统启发的计算模型,它通过模拟神经元之间的连接和信号传递来处理信息。神经网络由多个层次组成,包括输入层、隐藏层和输出层,每层包含多个神经元(或称节点)。每个神经元接收来自前一层神经元的输入,经过加权求和和激活函数处理后,产生输出传递给下一层神经元。下图是一个典型的神经网络:原创 2024-08-12 19:52:40 · 638 阅读 · 0 评论 -
人工智能与大语言模型
人工智能是研究、开发和应用系统能以人类智能相似方式做出反应和解决问题的技术,是计算机科学的一个分支。它涵盖了多个领域,如机器学习、自然语言处理、计算机视觉、智能问答系统、机器人技术等。原创 2024-08-12 00:30:00 · 484 阅读 · 0 评论 -
大模型函数调用function-call
在机器学习和深度学习领域,通过调用训练函数,模型能够自动完成数据的加载、初始化以及参数的优化,从而学习到数据的内在规律。在模型训练完成后,推理函数的调用则负责对新数据进行预测或分类,实现高效的数据处理。此外,为了衡量模型的性能,评估函数的调用也是必不可少的,它帮助计算模型的准确率、召回率等关键指标,为模型的改进提供有力支持。原创 2024-08-12 00:15:00 · 710 阅读 · 0 评论 -
机器学习和深度学习的关系与区别
在特征提取方面,深度学习和传统机器学习在多个方面存在显著差异。首先,在特征提取方式上,深度学习能够自动从原始数据中提取特征,而传统机器学习则依赖于人工特征工程。这使得深度学习在处理复杂、高维数据时更加高效和准确。其次,在模型复杂度上,深度学习模型通常具有较高的复杂度,能够捕捉数据中的复杂关系和非线性特征,而传统机器学习模型的复杂度较低。此外,两者在数据需求和计算资源方面也存在显著差异,深度学习需要大量的标记数据和较高的计算资源,而传统机器学习对数据量和计算资源的需求相对较小。原创 2024-07-25 22:41:20 · 938 阅读 · 0 评论 -
人工智能、机器学习、深度学习入门
在自动驾驶汽车中,人工智能系统结合了机器视觉、自然语言处理等多种技术,而机器学习和深度学习则用于优化这些技术的性能和准确性。人工智能(Artificial Intelligence, AI):人工智能是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。深度学习(Deep Learning, DL):深度学习是机器学习的一个特定领域,它利用深度神经网络(DNN)结构自动从数据中提取层次化的特征表示,并对任务进行端到端的训练和优化。原创 2024-07-25 22:04:37 · 928 阅读 · 0 评论 -
大模型微调fine-tuning
大模型fine-tuning(微调)是一种重要的机器学习技术,特别是在处理自然语言处理(NLP)任务时广泛应用。它指在已经预训练好的大型深度学习模型基础上,使用新的、特定任务相关的数据集对模型进行进一步训练的过程。这种方法旨在使模型能够适应新的、具体的任务或领域,而无需从头开始训练一个全新的模型。原创 2024-08-05 20:02:42 · 956 阅读 · 0 评论 -
大模型检索增强生成RAG
大模型检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种结合了信息检索技术和语言生成模型的人工智能技术,主要用于增强大型语言模型(Large Language Models, LLMs)处理知识密集型任务的能力。RAG是一种创新的人工智能技术,它将信息检索与语言生成相结合,使语言模型在生成回答或文本时能够动态地从外部知识库中检索相关信息。这种方法不仅提高了模型生成内容的准确性、可靠性和透明度,还减少了“幻觉”现象(即模型生成看似合理但实际上错误的信息)。原创 2024-08-05 20:02:25 · 667 阅读 · 0 评论 -
大模型训练流程解析
训练大模型是一个复杂且资源密集的过程,它不仅仅要求大量的计算资源和时间,还涉及多个关键步骤和要素。这个过程需要从数据的收集、清洗、整理到模型的设计与选择,再到模型的训练、评估与优化,每一个环节都需要精细的操作和考虑。同时,为了确保模型的性能和准确性,还需要在训练过程中采用各种优化策略。原创 2024-08-03 11:24:51 · 1011 阅读 · 0 评论 -
大模型原理特性与多元应用场景
通俗而言,大模型就像一个特别聪明、特别能干的“大脑”。这个“大脑”由众多小小的“神经元”组成,每个“神经元”都能处理一部分信息。当这些“神经元”协同工作时,大模型就能展现出惊人的智慧,理解并回答各种问题,或者轻松完成各种复杂的任务。它就像是你身边的一个超级聪明的助手,无论是写邮件、阅读文档、制作视频、撰写PPT还是回答你的各种疑问,它都能轻松应对。它仿佛是一个上知天文、下知地理、无所不知的天才,时刻准备着为你提供帮助和支持。原创 2024-07-30 18:55:44 · 709 阅读 · 0 评论 -
Numpy矩阵运算
Numpy是Python的一个开源数值计算扩展库,主要用于存储和处理大型多维数组和矩阵,并且提供了大量的数学函数来操作这些数组。Numpy是Python科学计算生态系统中的核心库之一,许多其他科学计算和数据分析库(如Pandas、SciPy、Matplotlib等)都是基于Numpy构建的。原创 2024-07-06 10:49:26 · 350 阅读 · 0 评论 -
AI大模型训练过程
AI大模型训练包含六个关键步骤:首先是数据收集与预处理,从多渠道收集并整理数据以确保其质量和适用性;其次是将数据集合理划分为训练集、验证集和测试集;然后根据任务需求选择合适的模型并进行详细设计;接着通过反复的前向传播、损失计算及反向传播优化过程来训练模型;训练完成后,利用验证集对模型性能进行评估与调优;最后将训练好的模型部署到实际环境中,并进行最终性能测试,同时根据应用反馈不断优化更新模型,以保持其性能和适应性。原创 2024-06-26 18:07:43 · 683 阅读 · 0 评论 -
AI大模型语料库
语料库(Corpus)是一个存储了大量真实语言使用实例的集合,这些实例可以是文本、语音、视频等多种形式的语言数据。语料库通常被用于语言学研究、自然语言处理(NLP)技术的开发和评估,以及其他与语言相关的领域。语料库中的语言数据是从实际的语言使用中收集而来的,因此它们能够真实地反映语言的用法和习惯。这使得语料库成为研究语言现象、分析语言规律以及开发语言技术的重要资源。在构建语料库时,需要注意数据的代表性、平衡性和多样性,以确保语料库能够全面地反映语言的各个方面。原创 2024-06-06 21:30:00 · 624 阅读 · 0 评论 -
特斯拉全自动驾驶系统Tesla‘s Full-Self Driving (FSD)
Tesla’s FSD is a suite of features that includes Autopilot, Navigate on Autopilot, Auto Lane Change, Autopark, Summon, and Traffic Light and Stop Sign Control. It is designed to enable Tesla vehicles to drive autonomously on highways and city streets.Tesla原创 2024-05-01 09:56:36 · 2143 阅读 · 1 评论 -
大语言模型Ollama
Ollama是一个开源的大语言模型平台,它允许用户在本地环境中运行、创建和共享大型语言模型。Ollama提供了丰富的功能和特性,使得用户可以在自己的计算机上轻松地部署和运行大型语言模型。原创 2024-04-24 18:35:00 · 741 阅读 · 0 评论 -
Spring AI Summary
Spring AI is a project that aims to streamline the development of AI applications by providing abstractions and reusable components that can be easily integrated into existing applications. The project is inspired by other Python projects like LangChain an原创 2024-04-21 21:32:18 · 724 阅读 · 0 评论 -
百度文心一言与谷歌Gemini的对比
Gemini和文心一言,是自然语言处理领域的两颗璀璨明珠,在文本生成、理解、翻译、摘要、问答等任务上展现出强大的实力。它们各具特色,为用户提供多元化的选择。Gemini凭借其多语言语料库的训练优势,在跨语言交流、机器翻译、国际化内容创作等领域游刃有余。文心一言则专注于中文语义的理解和处理,在中文搜索、中文问答、中文写作辅助等场景中大显身手。两强相遇,孰优孰劣?这取决于用户的具体需求和应用场景。如果您的需求涉及多语言处理,Gemini可能是最佳选择。但是,如果内容本身主要围绕中文展开,那么文心一言将是最优的A原创 2024-04-18 18:01:10 · 1222 阅读 · 0 评论 -
机器学习OpenNLP
OpenNLP是一个基于机器学习的自然语言处理开发工具包,它是Apache软件基金会的一个开源项目。OpenNLP支持多种自然语言处理任务,如分词、分句、词性标注、命名实体识别、语法分析、语言检测、共指解析等。它旨在创建一个成熟的工具箱,用于完成这些任务,并为各种语言提供大量的预构建模型和带注释的文本资源。原创 2024-03-25 23:22:29 · 1310 阅读 · 0 评论 -
文心一言大模型应用开发入门
本文重点介绍百度智能云平台、文心一言、千帆大模型平台的基本使用与接入流程及其详细步骤。请登录文心一言官方网站 https://yiyan.baidu.com/welcome点击登录;图示如下:原创 2024-01-03 22:09:25 · 2729 阅读 · 0 评论 -
人工智能技术发展漫谈
人工智能(Artificial Intelligence,简称AI)的发展历史可以追溯到20世纪中叶。以下是一些关键时刻和阶段:起源(1950年代): 人工智能的概念最早出现在20世纪50年代。英国数学家艾伦·图灵(Alan Turing)提出了“图灵测试”,并在其著作中探讨了机器是否能表现出类似于人类智能的思维能力。符号主义时期(1950-60年代): 这一时期主要关注使用符号和规则来表达智能。逻辑推理系统如Logic Theorist和General Problem Solver被开发出来,试图原创 2023-11-28 22:07:33 · 522 阅读 · 0 评论