自然语言处理实战入门
文章平均质量分 93
NLP 是人工智能和语言学领域的交叉学科,用于分析、理解和生成自然语言,以方便人和计算机设备进行交流,以及人与人之间的交流,本专栏将围绕汉语自然语言处理的基础及高阶技术完成基于本人博客为语料的分析套路及算法
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
《书生大模型实战营第3期》进阶岛 第5关: 茴香豆:企业级知识库问答工具
茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。在基础 RAG 课程中我们了解到,RAG 可以有效的帮助提高 LLM 知识检索的相关性、实时性,同时避免 LLM 训练带来的巨大成本。在实际的生产和生活环境需求,对 RAG 系统的开发、部署和调优的挑战更大,如需要解决群应答、能够无关问题拒答、多渠道应答、更高的安全性挑战。因此,根据大量国内用户的实际需求,总结出了三阶段Pipeline的茴香豆知识问答助手架构,帮助企业级用户可以快速上手安装部署。茴香豆特点。原创 2024-08-25 12:55:18 · 808 阅读 · 0 评论 -
《书生大模型实战营第3期》进阶岛 第6关: MindSearch CPU-only 版部署
MindSearch是一个开源的人工智能搜索引擎框架,其性能与Perplexy.AI Pro相当。部署你自己的困惑.ai风格的搜索引擎!这张图描述的是MindSearch框架的工作原理和工作流程,它由两个主要部分组成:WebPlanner和WebSearcher。WebPlanner:作为高层规划器,WebPlanner负责组织推理步骤和协调多个WebSearcher的活动。它通过创建和扩展一个动态图(InitGraph和Add node and edge)来模拟问题的解决过程。原创 2024-08-22 21:23:28 · 860 阅读 · 0 评论 -
《书生大模型实战营第3期》进阶岛 第4关: InternVL 多模态模型部署微调实践
InternVL 是一种用于多模态任务的深度学习模型,旨在处理和理解多种类型的数据输入,如图像和文本。它结合了视觉和语言模型,能够执行复杂的跨模态任务,比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息,InternVL 可以在多模态领域取得更好的表现。原创 2024-08-18 23:57:11 · 721 阅读 · 0 评论 -
《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践
注释:实验室提供的环境为虚拟化的显存,nvidia-smi是NVIDIA GPU驱动程序的一部分,用于显示NVIDIA GPU的当前状态,故当前环境只能看80GB单卡 A100 显存使用情况,无法观测虚拟化后30%或50%A100等的显存情况。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、kv cache占用的显存,以及中间运算结果占用的显存。让我们回到LMDeploy,在最新的版本中,LMDeploy使用的是AWQ算法,能够实现模型的4bit权重量化。输入以下指令,执行量化工作。原创 2024-08-17 00:38:16 · 600 阅读 · 0 评论 -
《书生大模型实战营第3期》进阶岛 第2关: Lagent 自定义你的 Agent 智能体
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将带大家基于 Lagent 自定义自己的智能体。原创 2024-08-16 00:46:59 · 651 阅读 · 0 评论 -
《书生大模型实战营第3期》进阶岛 第1关: 探索 InternLM 模型能力边界
如何进行大模型评测?原创 2024-08-14 00:24:33 · 692 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第6关 :OpenCompass 评测 InternLM-1.8B 实践
接下来,我们将展示 OpenCompass 的基础用法,分别用命令行方式和配置文件的方式评测InternLM2-Chat-1.8B,展示书生浦语在C-Eval基准任务上的评估。更多评测技巧欢迎查看文档~我们下节课再见!原创 2024-08-13 00:05:10 · 805 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第5关 :XTuner 微调个人小助手认知
当我们在测试完模型认为其满足我们的需求后,就可以对模型进行量化部署等操作了,这部分的内容在之后关于 LMDeploy 的课程中将会详细的进行讲解,敬请期待后续的课程吧!对于全量微调的模型(full)其实是不需要进行整合这一步的,因为全量微调修改的是原模型的权重而非微调一个新的 Adapter ,因此是不需要进行模型整合的。对于很多的初学者而言,安装好环境意味着成功了一大半!在准备好了模型和数据集后,我们就要根据我们选择的微调方法结合微调方案来找到与我们最匹配的配置文件了,从而减少我们对配置文件的修改量。原创 2024-08-11 19:10:03 · 960 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第4关 :InternLM + LlamaIndex RAG 实践
光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。光刻机是电子工业中最重要的设备,也是世界上造价最高的设备。给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。原创 2024-08-11 01:48:07 · 936 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第3关 :浦语提示词工程实践
创建虚拟环境之后的操作都要在这个环境下进行。# 安装一些必要的库# 安装其他依赖Prompt是一种用于指导以大语言模型为代表的生成式人工智能生成内容(文本、图像、视频等)的输入方式。它通常是一个简短的文本或问题,用于描述任务和要求。Prompt可以包含一些特定的关键词或短语,用于引导模型生成符合特定主题或风格的内容。例如,如果我们要生成一篇关于“人工智能”的文章,我们可以使用“人工智能”作为Prompt,让模型生成一篇关于人工智能的介绍、应用、发展等方面的文章。原创 2024-08-10 00:40:36 · 1054 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第2关 :8G 显存玩转书生大模型 Demo
我们首先来为 Demo 创建一个可用的环境。# 创建环境# 激活环境# 安装 torch# 安装其他依赖。原创 2024-08-08 21:32:08 · 953 阅读 · 0 评论 -
《书生大模型实战营第3期》基础岛 第1关 :书生大模型全链路开源体系
卓越的推理性能:在数学推理方面取得了同量级模型最优精度,超越了 Llama3 和 Gemma2-9B。有效支持百万字超长上下文:模型在 1 百万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 等长文任务中的表现也达到开源模型中的领先水平。可以通过LMDeploy尝试百万字超长上下文推理。更多内容和文档对话 demo 请查看这里。工具调用能力整体升级:InternLM2.5 支持从上百个网页搜集有效信息进行分析推理,相关实现将于近期开源到Lagent。原创 2024-08-04 23:19:51 · 944 阅读 · 0 评论 -
《书生大模型实战营第3期》入门岛 学习笔记与作业:Python 基础知识
python开发简介:【集成开发环境 IDE】python开发简介:【Conda,Pip】虚环境搭建、配置python开发简介:【jupyter notebook】实战配置python开发简介: 编码规范与工程基础实践使用 jupyter hub /lab搭建机器学习工作台使用跨平台的visual studio code 进行python 开发(综合内容老版本)python 开发环境搭建(综合内容老版本)其实Python 的环境配置在所有编程技术栈中是相对简单的,由于conda,pip 的存在。原创 2024-07-21 23:55:11 · 1060 阅读 · 0 评论 -
《书生大模型实战营第3期》入门岛 学习笔记与作业:Git 基础知识
使用版本控制的优点实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发、提高开发效率跟踪记录整个软件的开发过程减轻开发人员的负担,节省时间,同时降低人为错误。原创 2024-07-21 01:53:11 · 1210 阅读 · 1 评论 -
《书生大模型实战营第3期》入门岛 学习笔记与作业:Linux 基础知识
Linux 内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。多图看懂 Linux ,懂的都懂InternStudio 是大模型时代下的云端算力平台。原创 2024-07-16 00:07:04 · 986 阅读 · 0 评论 -
《书生·浦语大模型实战营》第7课 学习笔记:OpenCompass 大模型评测实战
百家争鸣,百花齐放。首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平,但仍然存在质疑,即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如,即使只提供LeetCode题目编号而不提供具体信息,大型语言模型也能够正确输出答案,这暗示着训练数据可能存在污染现象。其次,研究评测有助于指导和改进人类与大型语言模型之间的协同交互。原创 2024-06-29 02:26:45 · 1025 阅读 · 0 评论 -
《书生·浦语大模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将基于 AgentLego 构建自己的自定义工具。原创 2024-06-26 01:06:31 · 1003 阅读 · 0 评论 -
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
模型部署,就是把已经训练好的模型放在特定的环境中运行的过程。原创 2024-06-24 00:48:41 · 1073 阅读 · 0 评论 -
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
我们可以通过下面这张图来简单了解一下 XTuner 的运行原理。环境安装:假如我们想要用 XTuner 这款简单易上手的微调工具包来对模型进行微调的话,那我们最最最先开始的第一步必然就是安装XTuner!安装基础的工具是一切的前提,只有安装了 XTuner 在我们本地后我们才能够去思考说具体怎么操作。前期准备:那在完成了安装后,我们下一步就需要去明确我们自己的微调目标了。我们想要利用微调做一些什么事情呢,那我为了做到这个事情我有哪些硬件的资源和数据呢?原创 2024-06-11 23:48:45 · 696 阅读 · 0 评论 -
《书生·浦语大模型实战营》第1课 学习笔记:书生·浦语大模型全链路开源体系
一直比较关注LLM 相关内容的业界进展,所以特定来参加这个训练营《书生·浦语大模型实战营》,动手学习LLM,看看大模型生态链中具体的最佳实践(Best Practice),很早的时候GPT3.5 时代,我只是注意到了他的发布,之前的聊天机器人还是这么个架构官网:https://internlm.intern-ai.org.cn/InternLM2 技术报告【英文版】:https://arxiv.org/pdf/2403.17297.pdf。原创 2024-05-20 23:36:40 · 961 阅读 · 0 评论 -
《书生·浦语大模型实战营》第2课 学习笔记:轻松玩转书生·浦语大模型趣味 Demo
部署模型进行智能对话部署实战营优秀作品八戒-Chat-1.8B模型通过运行Lagent智能体Demo实践部署浦语·灵笔2模型八戒-Chat-1.8BXComposer2。原创 2024-05-27 00:16:21 · 1020 阅读 · 0 评论 -
《书生·浦语大模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆)
RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG综述RAG 能够让基础模型实现非参数知识更新,无需训练就可以掌握新领域的知识。第三次课程 选用的茴香豆应用,就应用了 RAG 技术,可以快速、高效的搭建自己的知识领域助手。原创 2024-06-03 00:48:33 · 780 阅读 · 0 评论 -
多层感知机的从零开始实现( 从D2L 包中抽取函数)
如何从零开始实现一个多层感知机呢?原创 2022-04-22 18:42:29 · 178 阅读 · 0 评论 -
使用 python web 框架 进行高并发模型上线部署 的架构 思路探索
文章大纲web 框架性能测试 基准sanicyolopostman post 图片sanic 服务处理postman 压测新增test解析压测结果json参考文献web 框架性能测试 基准TechEmpower 是许多执行基本任务(如JSON序列化、数据库访问和服务器端模板组合)的web应用程序框架的性能比较。每个框架都在现实的生产配置中运行。在云实例和物理硬件上捕获结果。测试实现主要由社区贡献,所有源代码都可以在 github 上查看:https://github.com/TechEmpower原创 2022-05-27 17:27:07 · 557 阅读 · 0 评论 -
windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】:3 -- 基于WSL2 本地方式的jupyter notebook使用
文章大纲基本环境构建CUDA 本地环境构建conda jupyter notebook tensorflow-gpu 环境构建参考文献接上文, 我们发现WSL2 中其实也是可以使用CUDA 的。只不过使用docker 的方式。在加载资源的过程中有点卡。我们在使用windows 炼丹的过程中,经常会遭遇到,Linux系统下生成的ckpt,或者模型文件加载出来编码错误。那么临时救急的办法就是使用WSL2 进行加载。windows 11 搭建 TensorFlow2.6 GPU 开发环境【RTX 30原创 2022-02-04 23:40:35 · 1608 阅读 · 1 评论 -
做项目一定用得到的NLP资源【分类版】
几乎最全的NLP中文资源库转载 2022-08-02 01:06:16 · 1551 阅读 · 0 评论 -
python selenium 自动化爬虫与测试网页利器
selenium 能做的事情太多了,自动化测试,复杂页面的爬取原创 2022-11-17 13:43:05 · 909 阅读 · 0 评论 -
《自然语言处理实战入门》 第二章:NLP 前置技术----正则表达式
文章大纲简介python 字符串操作python 正则表达式常用正则表达式正则表达式在线测试工具参考文献简介正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具...原创 2020-01-21 00:42:23 · 1854 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 第2课 :网络爬虫简介
我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型。在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办?在合理合法 的前提下自然语言处理 的语料和其他机器学习模型训练数据需要的图片等等各类数据,我们其实都是可以通过网络爬虫的方式进行积累的。网络爬虫...原创 2019-04-14 23:24:21 · 2204 阅读 · 0 评论 -
《自然语言处理实战入门》---- 第1课:自然语言处理简介
大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。原创 2019-11-21 13:41:48 · 4844 阅读 · 1 评论 -
NLU(Natural Language Understanding)太难了
原文链接:https://github.com/fighting41love/hardNLUNLU is hard!!!一直关注刘群老师的微博,常常看见他分享的一些好玩的#自然语言理解太难了#。遂整理了NLU实在是太难了系列语句,大家一笑无妨。这里列举了一些关于分词、实体识别、知识图谱相关的语句,按照难度从低到高排列,最高难度的放在了最后(需要强大的知识图谱哦,欢迎大家把答案开在issue...转载 2019-03-07 12:27:11 · 3057 阅读 · 2 评论 -
一文详解中英文在NLP上的10大差异点
作者 | 达观数据创始人 陈运文人类经过漫长的历史发展,在世界各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表,而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明,英语以表音(字音)构成,汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别。尽管全世界语言多达5600种,但大部数人类使用的语言集中在图中的前15种(覆盖全球90%以上人群)。其中...转载 2019-04-02 21:23:54 · 5877 阅读 · 5 评论 -
做项目一定用得到的NLP资源
原文链接:https://github.com/fighting41love/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文...转载 2020-05-23 01:27:53 · 4061 阅读 · 0 评论 -
简单NLP分析套路(2)----分词,词频,命名实体识别与关键词抽取
先说点闲话,google 近期发布了颠覆性的NLP模型–BERT ,大家有空可以了解一下,这是张俊林博士写的科普文章:https://mp.weixin.qq.com/s/EPEsVzbkOdz9GovrAM-p7g上一篇文章讲讲解了,如何使用爬虫积累三种类型的语料库,我就针对自己的博客进行一些简单的分析工作。...原创 2018-11-25 23:26:29 · 12029 阅读 · 0 评论 -
简单NLP分析套路(1)----语料库积累之3种简单爬虫方式应对大部分网站
目录近期听课的思考博客的爬虫新的改变近期听课的思考自然语言处理之AI深度学习顶级实战课程为什么微软称NLP 为人工智能“皇冠上的明珠”?----认知智能深度学习在自然语言处理的通用步骤论文的阅读,最新算法的研究算法的大概方向的评估训练和确定训练数据的收集,清洗以及数据的预处理算法实现,系统设计,参数调优,模型升级模型效果评估与部署博客的爬虫新的改变...原创 2018-10-28 23:13:24 · 5130 阅读 · 3 评论 -
知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考
昨天在北理工参加了一场由 雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动,聆听了一下午报告,可谓是受益匪浅。一下午时间安排的非常饱满,总共三场报告。不得不说首都的学校就是厉害啊,楼都这么漂亮。下面我就来分别说说重点和感想。1.佛学知识图谱构建技术东南大学 漆桂林教授1.1 什么是知识?1.2 知识图谱为搜索引擎带来的补充作用!1.3知识图谱的几个关键技术1.data extra原创 2017-06-10 14:00:45 · 13054 阅读 · 6 评论 -
错误使用tf-idf的实例分享
作者:一人项目中需要计算两个电视节目的相似程度,有人提出将自然语言处理当中的经典TF-IDF(Item frequency-inverse document frequency)引入作为节目的特征,然后使用余弦距离进行相似度计算。由于TF-IDF的应用领域与电视节目的信息表示不符,因此将其应用于电视节目相似度计算当中是不合适的。本文首先介绍视频语义的表示,接着对于文本语义的TF-IDF进行分析...原创 2018-04-12 23:13:09 · 1551 阅读 · 5 评论