![](https://img-blog.csdnimg.cn/c7d39319b40047eea030b73ebce3a7f3.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理实战入门
文章平均质量分 90
NLP 是人工智能和语言学领域的交叉学科,用于分析、理解和生成自然语言,以方便人和计算机设备进行交流,以及人与人之间的交流,本专栏将围绕汉语自然语言处理的基础及高阶技术完成基于本人博客为语料的分析套路及算法
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
《书生大模型实战营第3期》入门岛 学习笔记与作业:Python 基础知识
python开发简介:【集成开发环境 IDE】python开发简介:【Conda,Pip】虚环境搭建、配置python开发简介:【jupyter notebook】实战配置python开发简介: 编码规范与工程基础实践使用 jupyter hub /lab搭建机器学习工作台使用跨平台的visual studio code 进行python 开发(综合内容老版本)python 开发环境搭建(综合内容老版本)其实Python 的环境配置在所有编程技术栈中是相对简单的,由于conda,pip 的存在。原创 2024-07-21 23:55:11 · 680 阅读 · 0 评论 -
《书生大模型实战营第3期》入门岛 学习笔记与作业:Git 基础知识
使用版本控制的优点实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发、提高开发效率跟踪记录整个软件的开发过程减轻开发人员的负担,节省时间,同时降低人为错误。原创 2024-07-21 01:53:11 · 870 阅读 · 1 评论 -
《书生大模型实战营第3期》入门岛 学习笔记与作业:Linux 基础知识
Linux 内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。多图看懂 Linux ,懂的都懂InternStudio 是大模型时代下的云端算力平台。原创 2024-07-16 00:07:04 · 896 阅读 · 0 评论 -
《书生·浦语大模型实战营》第7课 学习笔记:OpenCompass 大模型评测实战
百家争鸣,百花齐放。首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平,但仍然存在质疑,即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如,即使只提供LeetCode题目编号而不提供具体信息,大型语言模型也能够正确输出答案,这暗示着训练数据可能存在污染现象。其次,研究评测有助于指导和改进人类与大型语言模型之间的协同交互。原创 2024-06-29 02:26:45 · 973 阅读 · 0 评论 -
《书生·浦语大模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将基于 AgentLego 构建自己的自定义工具。原创 2024-06-26 01:06:31 · 915 阅读 · 0 评论 -
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
模型部署,就是把已经训练好的模型放在特定的环境中运行的过程。原创 2024-06-24 00:48:41 · 995 阅读 · 0 评论 -
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
我们可以通过下面这张图来简单了解一下 XTuner 的运行原理。环境安装:假如我们想要用 XTuner 这款简单易上手的微调工具包来对模型进行微调的话,那我们最最最先开始的第一步必然就是安装XTuner!安装基础的工具是一切的前提,只有安装了 XTuner 在我们本地后我们才能够去思考说具体怎么操作。前期准备:那在完成了安装后,我们下一步就需要去明确我们自己的微调目标了。我们想要利用微调做一些什么事情呢,那我为了做到这个事情我有哪些硬件的资源和数据呢?原创 2024-06-11 23:48:45 · 658 阅读 · 0 评论 -
《书生·浦语大模型实战营》第1课 学习笔记:书生·浦语大模型全链路开源体系
一直比较关注LLM 相关内容的业界进展,所以特定来参加这个训练营《书生·浦语大模型实战营》,动手学习LLM,看看大模型生态链中具体的最佳实践(Best Practice),很早的时候GPT3.5 时代,我只是注意到了他的发布,之前的聊天机器人还是这么个架构官网:https://internlm.intern-ai.org.cn/InternLM2 技术报告【英文版】:https://arxiv.org/pdf/2403.17297.pdf。原创 2024-05-20 23:36:40 · 906 阅读 · 0 评论 -
《书生·浦语大模型实战营》第2课 学习笔记:轻松玩转书生·浦语大模型趣味 Demo
部署模型进行智能对话部署实战营优秀作品八戒-Chat-1.8B模型通过运行Lagent智能体Demo实践部署浦语·灵笔2模型八戒-Chat-1.8BXComposer2。原创 2024-05-27 00:16:21 · 959 阅读 · 0 评论 -
《书生·浦语大模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆)
RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG综述RAG 能够让基础模型实现非参数知识更新,无需训练就可以掌握新领域的知识。第三次课程 选用的茴香豆应用,就应用了 RAG 技术,可以快速、高效的搭建自己的知识领域助手。原创 2024-06-03 00:48:33 · 724 阅读 · 0 评论 -
多层感知机的从零开始实现( 从D2L 包中抽取函数)
如何从零开始实现一个多层感知机呢?原创 2022-04-22 18:42:29 · 165 阅读 · 0 评论 -
使用 python web 框架 进行高并发模型上线部署 的架构 思路探索
文章大纲web 框架性能测试 基准sanicyolopostman post 图片sanic 服务处理postman 压测新增test解析压测结果json参考文献web 框架性能测试 基准TechEmpower 是许多执行基本任务(如JSON序列化、数据库访问和服务器端模板组合)的web应用程序框架的性能比较。每个框架都在现实的生产配置中运行。在云实例和物理硬件上捕获结果。测试实现主要由社区贡献,所有源代码都可以在 github 上查看:https://github.com/TechEmpower原创 2022-05-27 17:27:07 · 534 阅读 · 0 评论 -
windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】:3 -- 基于WSL2 本地方式的jupyter notebook使用
文章大纲基本环境构建CUDA 本地环境构建conda jupyter notebook tensorflow-gpu 环境构建参考文献接上文, 我们发现WSL2 中其实也是可以使用CUDA 的。只不过使用docker 的方式。在加载资源的过程中有点卡。我们在使用windows 炼丹的过程中,经常会遭遇到,Linux系统下生成的ckpt,或者模型文件加载出来编码错误。那么临时救急的办法就是使用WSL2 进行加载。windows 11 搭建 TensorFlow2.6 GPU 开发环境【RTX 30原创 2022-02-04 23:40:35 · 1553 阅读 · 1 评论 -
做项目一定用得到的NLP资源【分类版】
几乎最全的NLP中文资源库转载 2022-08-02 01:06:16 · 1519 阅读 · 0 评论 -
python selenium 自动化爬虫与测试网页利器
selenium 能做的事情太多了,自动化测试,复杂页面的爬取原创 2022-11-17 13:43:05 · 890 阅读 · 0 评论 -
《自然语言处理实战入门》 第二章:NLP 前置技术----正则表达式
文章大纲简介python 字符串操作python 正则表达式常用正则表达式正则表达式在线测试工具参考文献简介正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具...原创 2020-01-21 00:42:23 · 1796 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 第2课 :网络爬虫简介
我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型。在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办?在合理合法 的前提下自然语言处理 的语料和其他机器学习模型训练数据需要的图片等等各类数据,我们其实都是可以通过网络爬虫的方式进行积累的。网络爬虫...原创 2019-04-14 23:24:21 · 2181 阅读 · 0 评论 -
《自然语言处理实战入门》---- 第1课:自然语言处理简介
大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。原创 2019-11-21 13:41:48 · 4803 阅读 · 1 评论 -
NLU(Natural Language Understanding)太难了
原文链接:https://github.com/fighting41love/hardNLUNLU is hard!!!一直关注刘群老师的微博,常常看见他分享的一些好玩的#自然语言理解太难了#。遂整理了NLU实在是太难了系列语句,大家一笑无妨。这里列举了一些关于分词、实体识别、知识图谱相关的语句,按照难度从低到高排列,最高难度的放在了最后(需要强大的知识图谱哦,欢迎大家把答案开在issue...转载 2019-03-07 12:27:11 · 3034 阅读 · 2 评论 -
一文详解中英文在NLP上的10大差异点
作者 | 达观数据创始人 陈运文人类经过漫长的历史发展,在世界各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表,而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明,英语以表音(字音)构成,汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别。尽管全世界语言多达5600种,但大部数人类使用的语言集中在图中的前15种(覆盖全球90%以上人群)。其中...转载 2019-04-02 21:23:54 · 5825 阅读 · 5 评论 -
做项目一定用得到的NLP资源
原文链接:https://github.com/fighting41love/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文...转载 2020-05-23 01:27:53 · 4030 阅读 · 0 评论 -
简单NLP分析套路(2)----分词,词频,命名实体识别与关键词抽取
先说点闲话,google 近期发布了颠覆性的NLP模型–BERT ,大家有空可以了解一下,这是张俊林博士写的科普文章:https://mp.weixin.qq.com/s/EPEsVzbkOdz9GovrAM-p7g上一篇文章讲讲解了,如何使用爬虫积累三种类型的语料库,我就针对自己的博客进行一些简单的分析工作。...原创 2018-11-25 23:26:29 · 12000 阅读 · 0 评论 -
简单NLP分析套路(1)----语料库积累之3种简单爬虫方式应对大部分网站
目录近期听课的思考博客的爬虫新的改变近期听课的思考自然语言处理之AI深度学习顶级实战课程为什么微软称NLP 为人工智能“皇冠上的明珠”?----认知智能深度学习在自然语言处理的通用步骤论文的阅读,最新算法的研究算法的大概方向的评估训练和确定训练数据的收集,清洗以及数据的预处理算法实现,系统设计,参数调优,模型升级模型效果评估与部署博客的爬虫新的改变...原创 2018-10-28 23:13:24 · 5089 阅读 · 3 评论 -
知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考
昨天在北理工参加了一场由 雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动,聆听了一下午报告,可谓是受益匪浅。一下午时间安排的非常饱满,总共三场报告。不得不说首都的学校就是厉害啊,楼都这么漂亮。下面我就来分别说说重点和感想。1.佛学知识图谱构建技术东南大学 漆桂林教授1.1 什么是知识?1.2 知识图谱为搜索引擎带来的补充作用!1.3知识图谱的几个关键技术1.data extra原创 2017-06-10 14:00:45 · 13011 阅读 · 6 评论 -
错误使用tf-idf的实例分享
作者:一人项目中需要计算两个电视节目的相似程度,有人提出将自然语言处理当中的经典TF-IDF(Item frequency-inverse document frequency)引入作为节目的特征,然后使用余弦距离进行相似度计算。由于TF-IDF的应用领域与电视节目的信息表示不符,因此将其应用于电视节目相似度计算当中是不合适的。本文首先介绍视频语义的表示,接着对于文本语义的TF-IDF进行分析...原创 2018-04-12 23:13:09 · 1533 阅读 · 5 评论