
自然语言处理
文章平均质量分 67
NLP实践
Michael阿明
两个孩子的父亲,8年机械工程师,已转行互联网做算法,一起继续加油!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
展开
-
使用 gradio 创建 图文任务 App
以下,本地电脑资源不够,就直接在 官网上操作了。使用这个模块写起来更优雅,可以自由的排版。提交按钮放在上面,减少鼠标移动距离。高级选项默认折叠,看起来简洁。原创 2023-07-29 12:08:38 · 2042 阅读 · 0 评论 -
使用 gradio 创建 NLP任务 demo App
选一个支持中文的 文本总结模型下载模型到本地。原创 2023-07-28 11:52:53 · 406 阅读 · 0 评论 -
LangChain学习:Chat with Your Data
大模型会对输入的 token 数量有限制,可以使用这种切分方法,token 通常大约是4个英文字符。由于加载文档的时候有一个重复的 PDF,所以查询的时候可能会出现两个一样的查询结果。让它从第三个文档中去查,会查出来一些不是第三个文档中的结果。这块没有跑通,大概就是下载视频提取语音,调用。上面的结果中有重复的,如果要去重加一个参数。封装函数:加载文档、切分、LLM链。,需要在切分点往前再找些字符补上。第二个字符串超过了,且设置了。构建用户界面及其响应处理。,只切出来1个字符串。切分效果较好,推荐使用。原创 2023-07-22 21:25:27 · 636 阅读 · 0 评论 -
LangChain学习:通过Agents自动查询天气
from langchain . agents import tool from datetime import date @tool def time(text : str) - > str : """返回今天的日期,将其用于与今天的日期相关的任何问题。原创 2023-07-15 16:10:22 · 3318 阅读 · 0 评论 -
LangChain学习:评估
意思就是资源不够用。不能同时对多个文档进行操作,换了个账号,可以了。执行 index 那行,报错了。使用模型进行了批量评估。原创 2023-07-14 23:57:56 · 948 阅读 · 0 评论 -
LangChain学习:加载文档进行问答
是 768*2 = 1536 维的编码。原创 2023-07-14 23:55:11 · 648 阅读 · 0 评论 -
LangChain学习:chains
让模型,给产品起一个公司名,并给这个公司名给出一个简介。创建了4种回答问题的提示词,让模型自己选择使用哪种。可以看到,模型使用了正确的模板。给定的字段 + 输入的字段(可以看到,创建了4个链。中的字段,输出就只有。原创 2023-07-14 23:51:46 · 552 阅读 · 0 评论 -
LangChain学习:models,prompts,parsers
也是一个字符串,它对输出的格式做了说明。那现在改下提示模板:加入输出格式的说明。可以看到,提示词模板有三个输出参数。查看源代码,可以看到。原创 2023-07-10 19:33:24 · 428 阅读 · 0 评论 -
用ChatGPT进行翻译、校对、扩写、聊天
生成客户服务电子邮件,邮件是根据每个客户的评论量身定制的。模型修改了语句,还删除了一些多余的空格。, 输出内容 比较稳定。原创 2023-05-21 10:03:21 · 3077 阅读 · 0 评论 -
用ChatGPT总结和推断
在政府最近进行的一项调查中,公共部门员工被要求对他们的水平进行评分对他们工作的部门感到满意。结果显示,美国国家航空航天局是最受欢迎的部门的满意度为95%。美国国家航空航天局的一名员工John Smith对这一发现发表了评论,他表示:“美国国家航空航天局脱颖而出,我并不感到惊讶。这是一个与了不起的人一起工作的好地方难以置信的机会。我很自豪能成为这样一个创新的组织。这一结果也受到了美国国家航空航天局管理团队的欢迎,导演汤姆·约翰逊表示:“我们很高兴。原创 2023-05-14 07:05:37 · 617 阅读 · 1 评论 -
迭代prompt提示词
我们的产品采用五轮塑料涂层铝制底座和气压椅调整,方便升降操作。您可以选择软质地面或硬质地面轮轮,两种座椅泡沫密度可选:中等(1.8磅/立方英尺)或高(2.8磅/立方英尺),还可以选择无扶手或8个位置的PU扶手。我们提供多种选项,包括软质地面或硬质地面轮轮,两种座椅泡沫密度可选:中等(1.8磅/立方英尺)或高(2.8磅/立方英尺),无扶手或8个位置的PU扶手。此外,您还可以选择软质地面或硬质地面轮轮,两种座椅泡沫密度可选:中等(1.8磅/立方英尺)或高(2.8磅/立方英尺),无扶手或8个位置的PU扶手。原创 2023-05-08 23:46:08 · 490 阅读 · 0 评论 -
如何给ChatGPT写提示词
编写清晰、具体的指令可引导模型朝期望输出方向发展,不要混淆简短和清晰,更长的提示提供更多上下文信息,有助于更详细、相关的输出。这个回答好像是自己胡编乱造的吧。原创 2023-05-08 00:17:30 · 1065 阅读 · 0 评论 -
ChatGLM-6B 安装试用
vim cli_demo.py 修改模型下载的路径。在生成答案的过程中,GPU显存使用在一直上涨。他没有回答鱼香肉丝相关的做法。其余文件从 huggingface 下载。解方程的答案是错的,模型不擅长数学问题。加载完模型后 GPU 使用情况。不懂前端,不好判断正确与否。试用以下代码,下载模型。模型记忆了上下文的 菜名。原创 2023-04-16 12:54:25 · 3342 阅读 · 1 评论 -
Rasa 基于知识库的问答 音乐百科机器人
learn from https://github.com/Chinese-NLP-book/rasa_chinese_book_code机器人返回了一个列表,用户说第X个,你得知道他说的是啥最简单的知识库 json 文件格式 实现中,每个 obj 都有至少有 属性意图想要进行知识库信息查询 将 映射为 将 的表述标注化为 知识库中 obj 的属性,在 nlu 训练数据中都要标注为 同时 domain.yml 文件需要加入2. 音乐机器人treenlu.ymlstorie原创 2022-12-23 09:54:59 · 1490 阅读 · 0 评论 -
Rasa 基于规则的对话管理: 天气预报机器人
forms : weather_form : required_slots : # 表单必须指定该字段 - address - date - time。原创 2022-12-12 07:07:25 · 2272 阅读 · 3 评论 -
Rasa 使用ResponseSelector实现FAQ和闲聊
ResponseSelector 训练数据中的 意图命名格式ResponseSelector 需要采用格式(group称为 检索意图)普通意图 命名不能包含/字符示例nlu : - intent : faq/work_location examples : | - 校园招聘录取的应届生主要工作地点在哪里?ResponseSelector 定义 responses 作为 intent 问题答案约定:intent 名字假设为x/y, responses 名字为utter_x/y。原创 2022-11-30 23:58:53 · 1865 阅读 · 10 评论 -
Rasa Core实践 报时机器人
满足后端交互计算需求,如查数据库、第三方api请求安装 rasa时,默认安装单独安装重写name()向服务器申明动作名字重写run()获取当前对话信息tracker 对象(对话状态追踪,获取历史实体、词槽等)domain 对象用户消息对象 dispatcher根据这些信息完成业务动作,如想改变对话状态,需要返回事件发送给 rasa服务器,没有的话,返回[]跟rasa一起安装的sdk,单独安装的。原创 2022-11-28 21:37:02 · 1752 阅读 · 0 评论 -
Rasa NLU 实践
这个文件里配置了:语种,分词器,模型、训练epochs等参数。这个文件里面有所有的意图的类别。这个配置文件里面有一些。该意图可能的说话例子。原创 2022-11-10 23:30:25 · 890 阅读 · 1 评论 -
pypinyin 获取多音字的拼音组合
使用 pypinyin 包import pypinyinfrom pypinyin import pinyin, lazy_pinyinimport itertoolstext = '追剧、听音乐'# heteronym 开启多音字选项, NORMAL不带声调ans = list(itertools.product(*pinyin(text, heteronym=True, style=pypinyin.NORMAL)))print(ans)输出:[('zhui', 'ju', '.原创 2022-03-16 11:19:38 · 1806 阅读 · 1 评论 -
Paddle 使用预训练模型 实现快递单信息抽取
文章目录1. 导包2. 数据处理3. 辅助函数3.1 评估函数3.2 预测函数3.3 预测结果解码4. 训练填写快递单据可以直接把所有信息直接粘贴进客户端,客户端自动识别 省市、人名、电话等信息,分类填入,然后打印出来粘贴。无须人工填写,加快了作业效率。learn from : https://aistudio.baidu.com/aistudio/projectdetail/1329361通过使用预训练模型+finetune,训练一个快递信息抽取模型。1. 导包# 快递单信息抽取from原创 2021-07-16 19:37:10 · 1810 阅读 · 1 评论 -
使用预训练模型进行句对分类(Paddle、PyTorch)
文章目录1. Paddle2. PyTorch分别使用两种框架,加载预训练模型,对句对进行分类数据下载:千言数据集:文本相似度1. Paddle可以使用 paddlenlp 直接加载预训练模型,比较方便# %%# 比赛地址# https://aistudio.baidu.com/aistudio/competition/detail/45import timeimport osimport numpy as npimport paddleimport paddlenlpimpor原创 2021-07-07 19:17:34 · 1315 阅读 · 3 评论 -
[Kaggle] Sentiment Analysis on Movie Reviews(BERT)
文章目录1. 预训练模型下载2. 数据集3. 加载预训练模型4. 提交结果练习地址:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews相关博文:[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT)本文使用 huggingface 上的预训练模型,在预训练模型的基础上,使用kaggle任务的数据集,进行训练 finetune,在kaggle提交测试结果1. 预训练模型下载下载地址原创 2021-01-12 21:42:01 · 1857 阅读 · 4 评论 -
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT)
文章目录1. 数据处理2. 下载预训练模型3. 加载数据4. 定义模型5. 训练6. 提交测试结果练习地址:https://www.kaggle.com/c/ds100fa19相关博文:[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM)本文使用 huggingface 上的预训练模型,在预训练模型的基础上,使用垃圾邮件数据集,进原创 2021-01-07 21:32:09 · 5711 阅读 · 12 评论 -
NLP项目工作流程
文章目录1. 谷歌Colab设置2. 编写代码3. flask 微服务4. 打包到容器5. 容器托管参考 基于深度学习的自然语言处理使用这篇文章的数据(情感分类)进行学习。1. 谷歌Colab设置Colab 地址新建笔记本设置选择 GPU/TPU 加速计算测试 GPU 是否分配import tensorflow as tftf.test.gpu_device_name()输出:/device:GPU:0上传数据至谷歌云硬盘,并在Colab中加载原创 2020-12-21 18:54:38 · 634 阅读 · 2 评论 -
使用注意力机制建模 - 标准化日期格式
文章目录1. 概述2. 数据参考 基于深度学习的自然语言处理本文使用attention机制的模型,将各种格式的日期转化成标准格式的日期1. 概述LSTM、GRU 减少了梯度消失的问题,但是对于复杂依赖结构的长句子,梯度消失仍然存在注意力机制能同时看见句子中的每个位置,并赋予每个位置不同的权重(注意力),且可以并行计算2. 数据生成日期数据from faker import Fakerfrom babel.dates import format_dateimport random原创 2020-12-17 23:27:17 · 773 阅读 · 3 评论 -
使用LSTM建立seq2seq模型进行语言翻译
文章目录1. 数据处理2. 编码器、解码器数据参考 基于深度学习的自然语言处理1. 数据处理读取数据with open('deu.txt', 'r', encoding='utf-8') as f: lines = f.read().split('\n')print("文档有 {} 行。".format(len(lines)))num_samples = 20000 # 使用的语料行数lines_to_use = lines[ : min(num_samples, len(line原创 2020-12-16 00:24:21 · 1233 阅读 · 2 评论 -
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM)
文章目录1. 读入数据2. 文本处理3. 建模4. 训练5. 测试练习地址:https://www.kaggle.com/c/ds100fa19相关博文 [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)1. 读入数据读取数据,test集没有标签import pandas as pdimport numpy as nptrain = pd.read_csv("train.csv")test = pd.read_csv("test.cs原创 2020-12-12 13:06:49 · 3907 阅读 · 0 评论 -
使用GRU单元的RNN模型生成唐诗
文章目录1. 读取数据2. 字符索引3. 创建文本序列4. 创建文本编码序列5. 使用GRU单元建立RNN模型6. 文本生成参考 基于深度学习的自然语言处理本文使用 GRU 单元建立 RNN 网络,使用唐诗三百首进行训练,使用模型生成唐诗。GRU RNN 网络能够克服简单RNN网络的一些问题,如梯度消失,梯度很难从深层传递到浅层,导致浅层的参数更新非常缓慢,学习速度很慢,还导致深层浅层学习不均衡。GRU,LSTM 使用更新门,遗忘门,来解决长距离的依赖关系,GRU相比LSTM参数更少。RNN 网络原创 2020-12-11 15:42:12 · 966 阅读 · 1 评论 -
使用RNN预测文档归属作者
文章目录1. 读取数据参考 基于深度学习的自然语言处理1. 读取数据原创 2020-12-09 18:55:21 · 424 阅读 · 3 评论 -
使用CNN进行情感分类
文章目录1. 读取数据2. 数据集拆分3. 文本向量化4. 建立CNN模型5. 训练、测试参考 基于深度学习的自然语言处理1. 读取数据数据文件:import numpy as npimport pandas as pddata = pd.read_csv("yelp_labelled.txt", sep='\t', names=['sentence', 'label'])data.head() # 1000条数据# 数据 X 和 标签 ysentence = data['sen原创 2020-12-06 23:51:14 · 2050 阅读 · 4 评论 -
词云(WordCloud)制作
以《神雕侠侣》为例,我们制作词云,看看有哪些高频词汇。1. 导入一些包# -*- coding:utf-8 -*-# @Python Version: 3.7# @Time: 2020/11/27 19:32# @Author: Michael Ming# @Website: https://michael.blog.csdn.net/# @File: word_cloud.py# @Reference: import jiebaimport numpy as npfrom PIL原创 2020-11-27 20:54:00 · 3059 阅读 · 7 评论 -
jieba分词提取小说人名
文章目录1. 读入文本2. 分词3. 计数4. 排序5. 添加用户字典以《神雕侠侣》为例:使用 jieba.posseg获取词性,人名的词性为 nr1. 读入文本import jieba.posseg as psgwith open('shendiaoxialv.txt',encoding='utf-8') as f: text = f.readlines()print(text[:10])输出:['\ufeff 第 一 回\u3000风月无情\n', '\n', ' “原创 2020-10-27 13:01:20 · 8498 阅读 · 15 评论 -
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)
文章目录1. 导入包2. 数据预览2. 特征组合3. 建模4. 训练5. 预测练习地址:https://www.kaggle.com/c/ds100fa191. 导入包import pandas as pdimport spacytrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")2. 数据预览train.head(10)train = train.fillna(" ")test = test.fillna(" "原创 2020-10-16 09:05:47 · 8986 阅读 · 11 评论 -
spacy 报错 gold.pyx in spacy.gold.GoldParse.__init__() 解决方案
在使用 spacy 进行 NLP 时出现以下错误:---------------------------------------------------------------------------TypeError Traceback (most recent call last)<ipython-input-164-8ef00790b0bb> in <module> 2 opt = nlp.beg原创 2020-10-15 22:50:23 · 785 阅读 · 0 评论 -
【Kaggle微课程】Natural Language Processing - 3. Word Vectors
文章目录1. 词嵌入 Word Embeddings2. 分类模型3. 文档相似度练习:1. 使用文档向量训练模型learn from https://www.kaggle.com/learn/natural-language-processing1. 词嵌入 Word Embeddings参考博文:05.序列模型 W2.自然语言处理与词嵌入 https://michael.blog.csdn.net/article/details/108886394类似的词语有着类似的向量表示,向量间可以相减作类翻译 2020-10-15 08:36:57 · 403 阅读 · 0 评论 -
【Kaggle微课程】Natural Language Processing - 2.Text Classification
文章目录1. bag of words2. 建立词袋模型3. 训练文本分类模型4. 预测练习:1. 评估方法2. 数据预处理、建模3. 训练4. 预测5. 评估模型6. 改进learn from https://www.kaggle.com/learn/natural-language-processingNLP中的一个常见任务是文本分类。这是传统机器学习意义上的“分类”,并应用于文本。包括垃圾邮件检测、情绪分析和标记客户查询。在本教程中,您将学习使用spaCy进行文本分类。该分类器将检测垃圾邮件,翻译 2020-10-15 00:17:45 · 641 阅读 · 3 评论 -
【Kaggle微课程】Natural Language Processing - 1. Intro to NLP
文章目录1. 使用 spacy 库进行 NLP2. Tokenizing3. 文本处理4. 模式匹配练习:食谱满意度调查2.1 在评论中找到菜单项2.2 对所有的评论匹配2.3 最不受欢迎的菜2.4 菜谱出现的次数learn from https://www.kaggle.com/learn/natural-language-processing1. 使用 spacy 库进行 NLPspacy:https://spacy.io/usagespacy 需要指定语言种类,使用spacy.load()加翻译 2020-10-14 20:51:28 · 465 阅读 · 0 评论