
自然语言处理实战入门【Generative AI重制版】
文章平均质量分 92
本教程力求帮助同学们对NLP领域整体概况有一个明晰的认识,并选择AIGC, 爬虫,汉语分词,可视化,文本分类等几个常见的应用领域和场景进行基于python语言的实战化入门介绍,实现直击技术核心,快速落地应用,理解算法原理的目的!
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
《自然语言处理实战入门》 ---- 【Generative AI重制版】总目录
随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。我希望能够通过这个专栏《自然语言处理实战入门》和广大NLP爱好者一起学习自然语言处理技术,分享学习资料,打破NLP 技术 的实战应用壁垒。................................................原创 2020-12-03 10:36:16 · 5738 阅读 · 1 评论 -
机器学习、深度学习解决方案设计方案通用审核流程(solution architect review)
全面、详细且可操作的机器学习/深度学习项目解决方案审查框架中,该框架将作为代码审查的前置步骤。确保项目在进入代码实现阶段之前,其方向、方法和技术选择是正确、合理和完备的。建议在方案评审会议前至少72小时完成文档预审,并结合检查清单(如Notion、Jira等)进行逐项确认。原创 2025-03-23 23:17:46 · 193 阅读 · 0 评论 -
基于小参数量大语言模型(Small Language Models) ---- 在制造业落地降本增效应用:可行性研究初探
小参数量模型是通过模型压缩技术从大型语言模型中提取知识而构建的轻量级模型。常见的模型压缩方法包括剪枝、量化、低秩分解和知识蒸馏等。这些方法能够有效减少模型的参数数量,提高模型的运行效率,使其更适合在资源受限的环境中部署。领域自适应蒸馏+混合专家架构+极致量化。原创 2025-03-16 20:21:31 · 384 阅读 · 0 评论 -
大语言模型进化论:从达尔文到AI的启示与展望
根据查尔斯·罗伯特·达尔文(Charles Robert Darwin)提出进化论的例子。进化论被誉为19世纪自然科学的三大发现之一。事实上,进化论的思想绝非达尔文的原创,但在该思想出现之前,达尔文一直在思考“到底是什么导致了进化?”这个问题,而且读了很多杂七杂八的书。在读《地质学原理》的时候,他受到启发,原来微小的变异可以逐渐累积成巨大的变化(遗传变异);在读《人口学原理》的时候,他意识到,过度繁殖使得空间、食物等对每一个个体来说变得稀缺,而资源的有限性会加速物种之间的斗争(过度繁殖和生存斗争);原创 2025-03-08 00:51:33 · 334 阅读 · 0 评论 -
从技术角度看大语言模型进化技术路线与落地应用详解:未来的最佳实践方向是什么?
动态稀疏注意力(Sparse Attention)混合专家系统(MoE)状态空间模型(SSM)与Mamba架构参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)强化学习驱动的后训练优化(RLHF+)绿色计算与模型压缩合成数据生成(Synthetic Data Generation)知识图谱增强(Knowledge-Enhanced LLMs)跨模态数据对齐(Cross-Modal Alignment)领域定制化基座模型AI智能体(Agent)系统科学发现引擎(AI f原创 2025-03-07 20:20:43 · 275 阅读 · 0 评论 -
使用AI 自动化编程IDE Trae 初探!国产就是好,Chat,Build 两大模式助力程序员生产力飙升
简单的使用 github 账户登录_lang=zh。原创 2025-03-03 16:02:22 · 292 阅读 · 0 评论 -
个人开发者在大模型开发时代最需要学习的技能与资源推荐
随着大型语言模型(LLM)技术的迅速发展,越来越多的个人开发者希望参与到这一前沿领域的探索中来。然而,面对复杂的技术栈和快速变化的最佳实践,找到正确的学习路径显得尤为重要。本报告旨在为个人开发者提供一个全面的学习指南,涵盖从基础理论到实际应用的关键技能,并推荐一系列宝贵的资源。同时,积极参与社区交流,利用开源资源,也是不断提升自我技能的有效途径。对输入数据进行必要的预处理,并对模型输出进行适当的后处理,确保结果的可用性和一致性。根据应用场景的需求选择合适的LLM模型,确保所选模型能满足特定的任务要求。原创 2025-02-09 21:34:12 · 114 阅读 · 0 评论 -
Transformer 与注意力机制原理说明与面试笔试题
自注意力机制(Self-Attention)是一种在深度学习中广泛应用的技术,尤其是在自然语言处理(NLP)和计算机视觉领域。它允许模型在处理输入序列时,考虑序列中每个元素与其他所有元素之间的关系,从而有效捕捉序列内的复杂依赖关系。基本原理自注意力机制的核心在于通过计算输入序列中每个元素的查询(Query)、键(Key)和值(Value)来建立元素之间的关系。输入转换:输入序列通过线性变换生成查询、键和值向量。相似度计算:通过计算查询向量与所有键向量之间的相似度(通常使用点积或缩放点积),得到注意力权重。原创 2025-01-18 23:52:01 · 346 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(6.3 - AIGC:驱动工业智能化的新引擎,工业、制造业大模型应用案例赏析)
这使得多模态大模型在很多领域展示出了革命性的应用潜力,并且其有望变革工业设备智能运维领域的应用范式,推动构建智能化和自动化的工业设备运营维护系统,并降低设备监测、运营和维护所需要的人力成本。这些技术的应用使得即使在资源受限的环境下,也能够训练和部署高效且精确的工业大模型。大模型技术本身仍处于发展的早期阶段,各类新的技术和应用模型不断涌现,比如长文本能力的提升、Sora 等视频生成能力的增强,将进一步扩展大模型在工业应用的场景,Agent、具身智能等大模型应用模式的创新也将深化大模型在工业领域的应用。原创 2024-11-04 23:54:14 · 347 阅读 · 0 评论 -
基于大语言模型的本地知识库问答系统构建方案
RAG 代表以下三个关键步骤「检索(Retrive)」 根据用户请求从外部知识源检索相关上下文。为此,使用嵌入模型将用户查询嵌入到与向量数据库中的附加上下文相同的向量空间中。这允许执行相似性搜索,并返回矢量数据库中最接近的前 k 个数据对象。「增强(Augment)」 用户查询和检索到的附加上下文被填充到提示模板中。「生成(Generate)」 最后,检索增强提示被馈送到 LLM。原创 2024-04-22 16:44:04 · 1000 阅读 · 0 评论 -
Windows 下融合使用开源组件进行视频内容分析,shotcut ,autocut 剪辑 whisper智能化编辑双语字幕等
下面以这个黄仁勋访谈视频为例简要介绍分析的步骤。原创 2024-04-06 19:00:09 · 436 阅读 · 0 评论 -
初学者如何入门Generative AI 之 Transformer 解析与应用:看两篇综述,玩几个应用感受一下先!超多高清大图,沉浸式体验
Generative artificial intelligence (also generative AI or GenAI) is artificial intelligence capable of generating text, images, or other media, using generative models.原创 2023-12-03 15:02:37 · 485 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(5 - AIGC 未来展望)
据预测,未来五年10%-30%的图片内容由AI参与生成,考虑到下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元。原创 2023-06-17 00:31:51 · 593 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(4 - AIGC 应用实践)
毫不夸张的说,如果在AIGC 时代,企业想仅靠应用层面的竞争而成为下一个科技龙头,显然难以实现。我们从人工智能的发展历程中已经明显地看出,模型的迭代和进步才是AIGC 爆发的关键。谁能够掌握更先进的人工智能模型,谁就拥有开启新时代的钥匙。原创 2023-06-16 23:36:06 · 376 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(3 - ChatGPT 成功之路)
AIGC的火爆原因:“技术、需求、产业链”的共同加持。深度学习快速突破,需求端对降本增效的追逐,产业链、生态基本形成;原创 2023-06-07 00:33:52 · 521 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 图像、视频生成与视觉大模型)
强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。原创 2023-06-06 23:36:45 · 899 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.2-大模型发展历程 之 Transformer 与 GPT)
简单来讲,GPT-2 并没有对 GPT-1 的模型架构进行创新,而是在 GPT-1 的基础上引入任务相关信息作为输出预测的条件,将 GPT-1 中的条件概率 p(output|input) 变为 p(output|input;模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。的情况下,GPT-3 在多个任务上均展现出了非常优异的性能,延续 GPT-2将无监督模型应用到有监督任务的思想,GPT-3 在 Few-shot,One-shot 和Zero-shot 等设置下的任务表现都得到了显著的提升。原创 2023-06-01 00:49:07 · 691 阅读 · 1 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.1-大模型发展历程 之 背景与开端)
追寻大模型的“万恶之源”,大抵应该从那篇 Attention is All You Need 开始,基于这篇由谷歌机器翻译团队提出的由多组 Encoder、Decoder 构成的机器翻译模型 Transformer 开始,大模型的发展大致走上了两条路,一条路是舍弃 Decoder 部分,仅仅使用 Encoder 作为编码器的预训练模型,其中最出名的代表就是 Bert 家族。根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。原创 2023-05-30 00:32:23 · 898 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(1-简介)
全球人工智能市场规模从2016年的约600亿美元发展到2021年的近3000亿美元,在推荐系统、计算机视觉、自然语言处理等技术加持下,亚马逊、字节、商汤、特斯拉等公司快发展。生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基 于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系 统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。原创 2023-05-21 08:25:08 · 1529 阅读 · 4 评论 -
如何驯化生成式AI,从提示工程 Prompt Engineering 开始
提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。原创 2023-04-09 12:44:52 · 1492 阅读 · 0 评论 -
代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?一张消费级显卡能不能跑出个6-7成的效果?
代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?原创 2023-04-03 00:02:09 · 4589 阅读 · 0 评论 -
AIGC 后下一个巨大的风口:AI生成检测
如何知道一段以假乱真的文本内容、惟妙惟肖的图形图像,栩栩如生的视频是由AI 生成的呢?原创 2023-02-11 23:14:00 · 1750 阅读 · 0 评论 -
生成式AI(Generative AI)将重新定义生产力
ChatGPT应用场景广泛,拥有潜在空前蓝海,其功能覆盖各个板块,我们将其分成生成应用和布局、搜索和数据分析、程序生成和分析、文本生成、内容创作、一般推理和其他七部分。我们认为基于其庞大的算力和算法分析,领域有望覆盖教育、科研、游戏、新闻等多重板块并有望持续拓展,市场潜力较大。原创 2023-02-09 23:27:03 · 1249 阅读 · 0 评论 -
智能聊天机器人技术研究与应用
在接下来的十年里,一群雄心勃勃的科学家追随图灵的脚步。Joseph Weizenbaum于1966年创建了ELIZA,这是第一批聊天机器人之一。虽然ELIZA未能通过图灵测试,但它确实通过关键词和编程响应等创新开辟了新的领域。大约六年后,肯尼斯·科尔比(Kenneth Colby)于1972年创建了聊天机器人PARRY。他用精神病学家测试了聊天机器人,只有48%的人能分辨出人和PARRY之间的区别。PARRY使用一个由分配给语言输入的不同权重触发的“情绪反应”系统,模拟了一个偏执狂。原创 2022-12-11 00:42:51 · 846 阅读 · 0 评论 -
《自然语言处理实战入门》 基于知识图谱的问答机器人 ---- KBQA
基于知识图谱的问答机器人有那些基本概念,我们来一一揭秘原创 2022-07-31 18:35:47 · 760 阅读 · 0 评论 -
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
本文给出一个使用回译技术进行样本增强的python 脚本原创 2022-07-29 00:43:24 · 755 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习基础 ---- Attention 注意力机制 ,Transformer 深度解析与学习材料汇总
我们来交叉最有效的开源资料,综合的看看自然语言处理中最火的Transformer 和 Attention 机制的全貌!原创 2022-07-23 17:56:55 · 1107 阅读 · 0 评论 -
python开发简介:【jupyter notebook】实战配置
由于anaconda自带了jupyter notebook,所以只需要一些简单的配置我们既可以进行实战开发,主要包括使用密码登录,外部访问,及root 角色启动等。原创 2022-07-06 23:40:17 · 571 阅读 · 0 评论 -
python开发简介:python 集成开发环境 IDE
进入实战环节,需要首先准备python开发环境的搭建,本书挑选工程中经常用到的IDE原创 2022-07-06 23:37:58 · 1380 阅读 · 0 评论 -
python开发简介:【Conda,Pip】虚环境搭建、配置与工程基础实践
有了集成开发环境,数据科学工具箱,我们还要准备搭建python 的虚拟环境。这是由于开源软件目前更新换代非常快,不同开发包之间相互依赖和更新可能引起的冲突及连锁反应。原创 2022-07-06 23:37:14 · 1262 阅读 · 0 评论 -
机器学习模型高性能、高并发部署实践探索
高并发系统设计的目标有三个:高性能,高可用,高可扩展!原创 2022-06-18 23:51:07 · 762 阅读 · 0 评论 -
Docker 端口 问题排查思路
文章大纲从网络方向查找问题⼀、查看firewall-cmd --state⼆、ip转发没有打开从容器方向查找问题端口映射的问题其他需要注意的问题参考文献从网络方向查找问题docker容器内提供服务并监听8888端⼝,要使外部能够访问,需要做端⼝映射。docker run -it --rm -p 8888:8888 server:v1此时出现问题,在虚机A上部署后,在A内能够访问8888端⼝服务,但是在B却不能访问。这应该是由于请求被拦截。⼀、查看firewall-cmd --state如果原创 2022-05-24 14:46:23 · 726 阅读 · 0 评论 -
《自然语言处理实战入门》---- 使用Docker TensorFlow TF.Serving 搭建文本情感分析在线服务(高并发)
文章大纲wsl2 下使用DockerTFserving拉取 TF.Serving 镜像运行容器模型服务RESTful apiflask 服务端代码高并发方式部署gPRC 和 RESTful 的区别高并发的选择参考文献wsl2 下使用Docker如果没有wsl2 的话就用虚拟机或者其他方式吧,在windows 下的话,wsl2 实在是太好用了!下面这两篇文章对wsl2 和 基本的Docker 都有简单的介绍:使用 WSL 进行pyspark + xgboost 分类+特征重要性 简单实践 – 离线原创 2022-05-23 00:11:30 · 428 阅读 · 0 评论 -
多层感知机的从零开始实现( 从D2L 包中抽取函数)
如何从零开始实现一个多层感知机呢?原创 2022-04-22 18:42:29 · 228 阅读 · 0 评论 -
NLP方向 ---- 面试、笔试题集(7):预训练模型 BERT
作为超高频的面试考点,BERT 一定要默写并背诵原创 2022-04-20 11:18:35 · 1011 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(81-100)
我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型原创 2022-04-19 22:18:05 · 536 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(41-60)
笔试、面试题:机器学习基础(41-60)原创 2022-04-19 21:29:08 · 334 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)原创 2022-04-18 22:02:17 · 404 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习 ---- 预训练模型的使用 使用bert 进行文本分类
文章大纲参考文献参考文献ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONSalbert_zh原创 2021-06-20 20:05:19 · 1054 阅读 · 1 评论 -
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
在一些自然语言处理任务中,当对序列进行处理时,我们一般会采用循环神经网络RNN,尤其是它的一些变种,如LSTM(更常用),GRU。当然我们也可以把RNN运用到文本分类任务中。原创 2022-04-15 15:52:33 · 533 阅读 · 4 评论