自然语言处理实战入门【Generative AI重制版】
文章平均质量分 92
本教程力求帮助同学们对NLP领域整体概况有一个明晰的认识,并选择AIGC, 爬虫,汉语分词,可视化,文本分类等几个常见的应用领域和场景进行基于python语言的实战化入门介绍,实现直击技术核心,快速落地应用,理解算法原理的目的!
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
《自然语言处理实战入门》 ---- 【Generative AI重制版】总目录
随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。我希望能够通过这个专栏《自然语言处理实战入门》和广大NLP爱好者一起学习自然语言处理技术,分享学习资料,打破NLP 技术 的实战应用壁垒。................................................原创 2020-12-03 10:36:16 · 5344 阅读 · 1 评论 -
基于大语言模型的本地知识库问答系统构建方案
RAG 代表以下三个关键步骤「检索(Retrive)」 根据用户请求从外部知识源检索相关上下文。为此,使用嵌入模型将用户查询嵌入到与向量数据库中的附加上下文相同的向量空间中。这允许执行相似性搜索,并返回矢量数据库中最接近的前 k 个数据对象。「增强(Augment)」 用户查询和检索到的附加上下文被填充到提示模板中。「生成(Generate)」 最后,检索增强提示被馈送到 LLM。原创 2024-04-22 16:44:04 · 458 阅读 · 0 评论 -
Windows 下融合使用开源组件进行视频内容分析,shotcut ,autocut 剪辑 whisper智能化编辑双语字幕等
下面以这个黄仁勋访谈视频为例简要介绍分析的步骤。原创 2024-04-06 19:00:09 · 303 阅读 · 0 评论 -
初学者如何入门Generative AI 之 Transformer 解析与应用:看两篇综述,玩几个应用感受一下先!超多高清大图,沉浸式体验
Generative artificial intelligence (also generative AI or GenAI) is artificial intelligence capable of generating text, images, or other media, using generative models.原创 2023-12-03 15:02:37 · 307 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(5 - AIGC 未来展望)
据预测,未来五年10%-30%的图片内容由AI参与生成,考虑到下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元。原创 2023-06-17 00:31:51 · 481 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(4 - AIGC 应用实践)
毫不夸张的说,如果在AIGC 时代,企业想仅靠应用层面的竞争而成为下一个科技龙头,显然难以实现。我们从人工智能的发展历程中已经明显地看出,模型的迭代和进步才是AIGC 爆发的关键。谁能够掌握更先进的人工智能模型,谁就拥有开启新时代的钥匙。原创 2023-06-16 23:36:06 · 289 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(3 - ChatGPT 成功之路)
AIGC的火爆原因:“技术、需求、产业链”的共同加持。深度学习快速突破,需求端对降本增效的追逐,产业链、生态基本形成;原创 2023-06-07 00:33:52 · 443 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 图像、视频生成与视觉大模型)
强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。原创 2023-06-06 23:36:45 · 831 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.2-大模型发展历程 之 Transformer 与 GPT)
简单来讲,GPT-2 并没有对 GPT-1 的模型架构进行创新,而是在 GPT-1 的基础上引入任务相关信息作为输出预测的条件,将 GPT-1 中的条件概率 p(output|input) 变为 p(output|input;模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。的情况下,GPT-3 在多个任务上均展现出了非常优异的性能,延续 GPT-2将无监督模型应用到有监督任务的思想,GPT-3 在 Few-shot,One-shot 和Zero-shot 等设置下的任务表现都得到了显著的提升。原创 2023-06-01 00:49:07 · 558 阅读 · 1 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.1-大模型发展历程 之 背景与开端)
追寻大模型的“万恶之源”,大抵应该从那篇 Attention is All You Need 开始,基于这篇由谷歌机器翻译团队提出的由多组 Encoder、Decoder 构成的机器翻译模型 Transformer 开始,大模型的发展大致走上了两条路,一条路是舍弃 Decoder 部分,仅仅使用 Encoder 作为编码器的预训练模型,其中最出名的代表就是 Bert 家族。根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。原创 2023-05-30 00:32:23 · 712 阅读 · 0 评论 -
AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(1-简介)
全球人工智能市场规模从2016年的约600亿美元发展到2021年的近3000亿美元,在推荐系统、计算机视觉、自然语言处理等技术加持下,亚马逊、字节、商汤、特斯拉等公司快发展。生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基 于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系 统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。原创 2023-05-21 08:25:08 · 1368 阅读 · 4 评论 -
如何驯化生成式AI,从提示工程 Prompt Engineering 开始
提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。原创 2023-04-09 12:44:52 · 1352 阅读 · 0 评论 -
代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?一张消费级显卡能不能跑出个6-7成的效果?
代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?原创 2023-04-03 00:02:09 · 4453 阅读 · 0 评论 -
AIGC 后下一个巨大的风口:AI生成检测
如何知道一段以假乱真的文本内容、惟妙惟肖的图形图像,栩栩如生的视频是由AI 生成的呢?原创 2023-02-11 23:14:00 · 1415 阅读 · 0 评论 -
生成式AI(Generative AI)将重新定义生产力
ChatGPT应用场景广泛,拥有潜在空前蓝海,其功能覆盖各个板块,我们将其分成生成应用和布局、搜索和数据分析、程序生成和分析、文本生成、内容创作、一般推理和其他七部分。我们认为基于其庞大的算力和算法分析,领域有望覆盖教育、科研、游戏、新闻等多重板块并有望持续拓展,市场潜力较大。原创 2023-02-09 23:27:03 · 1104 阅读 · 0 评论 -
智能聊天机器人技术研究与应用
在接下来的十年里,一群雄心勃勃的科学家追随图灵的脚步。Joseph Weizenbaum于1966年创建了ELIZA,这是第一批聊天机器人之一。虽然ELIZA未能通过图灵测试,但它确实通过关键词和编程响应等创新开辟了新的领域。大约六年后,肯尼斯·科尔比(Kenneth Colby)于1972年创建了聊天机器人PARRY。他用精神病学家测试了聊天机器人,只有48%的人能分辨出人和PARRY之间的区别。PARRY使用一个由分配给语言输入的不同权重触发的“情绪反应”系统,模拟了一个偏执狂。原创 2022-12-11 00:42:51 · 766 阅读 · 0 评论 -
《自然语言处理实战入门》 基于知识图谱的问答机器人 ---- KBQA
基于知识图谱的问答机器人有那些基本概念,我们来一一揭秘原创 2022-07-31 18:35:47 · 672 阅读 · 0 评论 -
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
本文给出一个使用回译技术进行样本增强的python 脚本原创 2022-07-29 00:43:24 · 684 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习基础 ---- Attention 注意力机制 ,Transformer 深度解析与学习材料汇总
我们来交叉最有效的开源资料,综合的看看自然语言处理中最火的Transformer 和 Attention 机制的全貌!原创 2022-07-23 17:56:55 · 1004 阅读 · 0 评论 -
python开发简介:【jupyter notebook】实战配置
由于anaconda自带了jupyter notebook,所以只需要一些简单的配置我们既可以进行实战开发,主要包括使用密码登录,外部访问,及root 角色启动等。原创 2022-07-06 23:40:17 · 484 阅读 · 0 评论 -
python开发简介:python 集成开发环境 IDE
进入实战环节,需要首先准备python开发环境的搭建,本书挑选工程中经常用到的IDE原创 2022-07-06 23:37:58 · 1261 阅读 · 0 评论 -
python开发简介:【Conda,Pip】虚环境搭建、配置与工程基础实践
有了集成开发环境,数据科学工具箱,我们还要准备搭建python 的虚拟环境。这是由于开源软件目前更新换代非常快,不同开发包之间相互依赖和更新可能引起的冲突及连锁反应。原创 2022-07-06 23:37:14 · 766 阅读 · 0 评论 -
机器学习模型高性能、高并发部署实践探索
高并发系统设计的目标有三个:高性能,高可用,高可扩展!原创 2022-06-18 23:51:07 · 657 阅读 · 0 评论 -
Docker 端口 问题排查思路
文章大纲从网络方向查找问题⼀、查看firewall-cmd --state⼆、ip转发没有打开从容器方向查找问题端口映射的问题其他需要注意的问题参考文献从网络方向查找问题docker容器内提供服务并监听8888端⼝,要使外部能够访问,需要做端⼝映射。docker run -it --rm -p 8888:8888 server:v1此时出现问题,在虚机A上部署后,在A内能够访问8888端⼝服务,但是在B却不能访问。这应该是由于请求被拦截。⼀、查看firewall-cmd --state如果原创 2022-05-24 14:46:23 · 583 阅读 · 0 评论 -
《自然语言处理实战入门》---- 使用Docker TensorFlow TF.Serving 搭建文本情感分析在线服务(高并发)
文章大纲wsl2 下使用DockerTFserving拉取 TF.Serving 镜像运行容器模型服务RESTful apiflask 服务端代码高并发方式部署gPRC 和 RESTful 的区别高并发的选择参考文献wsl2 下使用Docker如果没有wsl2 的话就用虚拟机或者其他方式吧,在windows 下的话,wsl2 实在是太好用了!下面这两篇文章对wsl2 和 基本的Docker 都有简单的介绍:使用 WSL 进行pyspark + xgboost 分类+特征重要性 简单实践 – 离线原创 2022-05-23 00:11:30 · 379 阅读 · 0 评论 -
多层感知机的从零开始实现( 从D2L 包中抽取函数)
如何从零开始实现一个多层感知机呢?原创 2022-04-22 18:42:29 · 177 阅读 · 0 评论 -
NLP方向 ---- 面试、笔试题集(7):预训练模型 BERT
作为超高频的面试考点,BERT 一定要默写并背诵原创 2022-04-20 11:18:35 · 957 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(81-100)
我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型原创 2022-04-19 22:18:05 · 457 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(41-60)
笔试、面试题:机器学习基础(41-60)原创 2022-04-19 21:29:08 · 265 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)原创 2022-04-18 22:02:17 · 332 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习 ---- 预训练模型的使用 使用bert 进行文本分类
文章大纲参考文献参考文献ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONSalbert_zh原创 2021-06-20 20:05:19 · 994 阅读 · 1 评论 -
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
在一些自然语言处理任务中,当对序列进行处理时,我们一般会采用循环神经网络RNN,尤其是它的一些变种,如LSTM(更常用),GRU。当然我们也可以把RNN运用到文本分类任务中。原创 2022-04-15 15:52:33 · 477 阅读 · 4 评论 -
《自然语言处理实战入门》---- 学习资源汇总
墙裂推荐:机器学习、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。原创 2021-05-10 23:03:33 · 482 阅读 · 2 评论 -
使用 jupyter hub /lab搭建机器学习工作台
AI workbench 也叫 AI 工作台,jupyter notebook 套件 可以基本满足一个机器学习工程师的全部要求。他所见即所得的编程方式受到广大分析师们的喜爱。本文主要讲解jupyter lab 的安装与使用配置,结合官网的docker 使用方式,一探究竟。原创 2022-04-08 22:58:35 · 2344 阅读 · 0 评论 -
一种基于结构信息检索文档的思路(html,pdf,html,xml,doc,ppt,这样的异构文档应该如何检索呢?)
在企业数字化转型迫在眉睫的今天,很多工业企业拥有大量的说明、流程、规范等文档,结构化数据库无法解决文档类型的数据检索,现有全文检索引擎默认的相似性评分算法只考虑词频相关特征,准确率低下,用户很难针对海量文档进行高效且准确的检索。当前传统企业往往非常注重数据安全,普遍选择开发自己的内部办公、业务系统,其中文档检索作为一种必不可少的子系统,在搜索引擎普及的今天是提升用户使用体验的高效手段。但是如果这些系统做不到高效的文档数据检索,则会整体降低内部系统的用户体验。原创 2022-04-07 22:48:59 · 700 阅读 · 0 评论 -
《动手学习深度学习》笔记:基础知识(概率论,线性代数)
李沐老师的动手学习深度学习将的非常详细,其核心思想是动手做,我计划根据这门课程中给出的一些参考代码以及demo,达到以下一些目的:1. 学习大佬的一些学习、练习、编程、实现的思路。2. 全面回顾深度学习的基础知识。原创 2022-02-11 11:09:35 · 897 阅读 · 0 评论 -
《动手学习深度学习》笔记:基础知识(如何在工程中借鉴呢?---- d2l包的解析)
动手学习深度学习前置的基础知识都有哪些呢?我们这篇文章来一一列举原创 2022-02-10 17:10:36 · 11767 阅读 · 0 评论 -
使用transform 库及 PyTorch 进行 基于 albert 的文本分类任务
文章大纲参考文献pip install transformers# base 环境下安装pip install ipywidgetshttps://zhuanlan.zhihu.com/p/199238483from transformers import BertTokenizer# 'bert-base-chinese'pretrained = 'voidful/albert_chinese_base'tokenizer = BertTokenizer.from_pretrain原创 2022-02-07 23:45:13 · 1208 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习 ---- 预训练模型的使用(ALBERT 进行多标签文本分类与使用windows11 在WSL GPU 下的微调 fine tune)
文章大纲环境安装脚本使用windows11 在WSL GPU 下 的资源申请与配置数据预处理模型训练与微调微调报错: InternalError: Blas xGEMMBatched launch failed :环境安装脚本conda create -n nlp_gputf2 python=3.8 -yconda activate nlp_gputf2conda install ipykernel#bert4keras 无法支持高版本conda install tensorflow-gpu原创 2022-02-07 21:48:06 · 1689 阅读 · 0 评论 -
《自然语言处理实战入门》深度学习 ---- 预训练模型的使用(ALBERT 进行多标签文本分类与CPU 下的微调 fine tune)
文章大纲环境构建关键点数据预处理模型微调、评估、预测keras 模型结构训练微调模型保存与再次载入模型预测参考文献环境构建conda create -n nlp_tf2 python=3.8 -yconda activate nlp_tf2conda install ipykernel# bert4keras 无法支持高版本pip install tensorflow==2.2.2pip install pandaspip install matplotlibpip install sk原创 2022-02-06 00:46:33 · 1642 阅读 · 4 评论