NLP
文章平均质量分 84
chenxy02
AI+云计算
展开
-
用Gradio做一个ai-chat应用
其实这个小应用的完成,最大的难点是 为上述代码中的 OpenAI(base_url="https://xxxxx/v1/") 设置一个可调通的API地址。上半年国内的大模型还没遍地开花的时候,笔者花巨资购了两台云服务器及给OpenAI充了20$,给身边的亲友给做了一个可使用的ai-chat。由于笔者提供的ai-chat服务,是一个公网可访问的界面。给lanuch()方法,传入auth参数,设置了访问应用所需的账户、密码。,自己编写web后台,找朋友做界面,做出了一个版本。后来Gradio发布了。原创 2024-01-11 19:33:50 · 675 阅读 · 0 评论 -
深度学习技术选型——文本相似度计算
背景:笔者由于在做一个检索式智能对话系统的项目,需要用到文本相似度计算深度学习模型(以下简称“文本相似度模型”)。便和团队一起对文本相似度技术进行一波调研。目标:1、对同一意思的不同长度的问法,有较好的识别能力“共青团的基本任务” & “中国共青团的基本任务是什么呢”比如上面两个句子,我们希望文本相似度模型能够给出较高的相似度得分。ps:实际的工程实践中实现此目标,我们也可以考虑结合“去停用词”,将“是”、“什么”、“呢”这样的词汇先去掉。停用词词库可以参考下面的链.原创 2021-12-16 17:37:45 · 6967 阅读 · 3 评论 -
知识抽取实现方案——实体抽取
知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等。从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是广义上说的信息抽取。信息抽取三个最重要/最受关注的子任务:实体抽取:原创 2021-12-02 19:28:34 · 7693 阅读 · 2 评论 -
基于ElasticSearch+文本相似度模型的检索式智能对话方案
背景:在对话系统领域,检索式对话系统一直是工业界的偏爱。笔者曾经单纯基于ElasticSearch的相似度匹配进行过实现(详见:基于ElasticSearch的检索式智能问答方案_chenxy02的博客-CSDN博客 )。后面又引入深度学习模型——“文本相似度识别”提升了系统的意图匹配机制,于是便有了这篇博客。为什么只用ES相似度匹配不行ES(ElasticSearch)所提供的相似度机制本质上是一种基于词频、基于规则的相似度计算(详见:ElasticSearch相似度匹配及分词器选择_chen..原创 2021-10-29 21:53:42 · 3658 阅读 · 0 评论 -
文本上的算法——深入浅出自然语言处理(读书笔记)
读后简评:《文本上的算法——深入浅出自然语言处理》主要介绍了NLP领域的整体知识框架,以及对各个实现技术进行讲解。整体思路结构还是挺清晰的,不过对于数学基础较差、对深度学习技术没有过接触的人,想要通过本书学会具体的实现技术还是有相当难度的。...原创 2019-12-23 16:32:15 · 267 阅读 · 0 评论 -
自然语言处理中的预训练技术发展史
转载地址:https://zhuanlan.zhihu.com/p/49271699前言:Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效转载 2020-08-06 15:52:06 · 527 阅读 · 0 评论 -
Python数据预处理--Gensim构建语料词典
Gensim简介开源第三方Python工具包,从原始的非结构化文本抽取语义主题。 支持语料处理、LSA、LDA、RP、TF-IDF、word2vec等主题模型 内存独立,可实现向量空间算法,支持主题建模的可扩展框架 核心:语料、稀疏向量和模型...原创 2020-04-02 10:22:01 · 3374 阅读 · 0 评论 -
Python数据预处理--文本特征提取(以Jieba工具包为例)
需求场景:基于分词技术,实现对文本数据中命名实体(如人名、地名等)的提取,或者自动计算文本中的TF(词频)和TF-IDF(词频-逆向文件频率)。主流工具包:目前业界主流的分词工具包有“jieba”和“HanLP”等好几种。其中jieba是目前Python社区中最广泛使用的,HanLP作为Java开发的工具包,使用Python调用时需要先加载jpype模块。本文主要介绍Jieba工具,...原创 2020-03-03 15:57:41 · 4024 阅读 · 0 评论