NLP
文章平均质量分 60
身在江湖的郭大侠
念念不忘,必有回响
展开
-
决策树模型
决策树•决策树是一种树形结构••其中每个内部节点表示一个特征上的判断••每个分支代表一个判断结果的输出••最后每个叶节点代表一种分类结果例子:决策树-构造过程•选择一个特征 (如:是否有房产)•根据特征值对样本进行划分 (有房,无房)•目标:划分后的样本尽量在同一个类别••不断重复上述过程••关键点:•1.如何选择最值得划分的特征•2.如何选择划...原创 2022-05-23 01:00:05 · 6953 阅读 · 0 评论 -
维特比、beam_search的实现
import numpy as npimport randomimport copy'''维特比解码和beam search'''class Fence: def __init__(self, n, h): self.width = n self.height = h #用行列组成的list代表一个节点,每两个相邻的列的节点之间可以计算距离 #e.g:node1 = [2,1] node2 = [3, 2] #为两个节点给.原创 2022-05-22 00:20:43 · 228 阅读 · 0 评论 -
以jieba结果作为数据训练分词模型
基于pytorch的网络编写一个分词模型我们使用jieba分词的结果作为训练数据看看是否可以得到一个效果接近的神经网络模型#coding:utf8import torchimport torch.nn as nnimport jiebaimport numpy as npimport randomimport jsonfrom torch.utils.data import DataLoaderclass TorchModel(nn.Module): def ..原创 2022-05-22 00:18:44 · 660 阅读 · 0 评论 -
正则表达式的应用
import reimport randomimport time"""介绍正则表达式的常用操作"""# # re.match(pattern, string) 验证字符串起始位置是否与pattern匹配# print(re.match('www', 'www.runoob.com')) # 在起始位置匹配# print(re.match('run', 'www.runoob.com')) # 不在起始位置匹配# # re.search(patter.原创 2022-05-21 23:50:23 · 313 阅读 · 0 评论 -
序列标注任务
•对于序列中的每个时间步做分类•得到每个时间步的标签••对于输入:X1X2X3X4….Xn•预测输出:Y1Y2Y3Y4…..Yn••应用场景:•分词,词性标注,句法分析,命名实体识别等中文分词•B:词左边界••E:词右边界••M:词内部S:单字命名实体识别(NER)•BA:地址左边界•MA:地址内部•EA:地址右边界••BO:机构左边界•MO:机构内部•EO:机构右边界••BP:人名左.原创 2022-05-21 23:46:57 · 518 阅读 · 0 评论 -
nlp学习随笔
NLP发展历史•20世纪五十年代开始,与计算机的诞生几乎同时•始于机器翻译任务•两种路线: 1.基于规则的理性主义 主张建立符号处理系统,由人工整理和编写初始的 语言知识表示体系,构造相应的推理程序 2.基于统计的经验主义 主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,利用统计、模式识别、机器学习等方法来训练模型••20世纪20年代-60年代• 经验主义处于主导地位,人们在研究语言的应用规律是进行统计、分析和...原创 2022-05-21 23:47:32 · 317 阅读 · 0 评论 -
PaddleNLP_基于seq2seq的对联生成
知识点回顾1.以下哪些场景涉及文本生成?A、机器翻译B、垃圾邮件识别C、智能写作D、生成式文本摘要答案 ACD2.paddlenlp.datasets类和paddle.io.Dataset的关系,下列哪种描述最恰当?A.毫无关系B,paddlenlp.datasets继承自paddle.io.Dataset答案:B3·在循环神经网络(RNN)里,处理句子里各个词时都会调用相同的网络单元吗?A.是的 B.不是答案:A2在自然语言处理任务中,将字词、句子、篇章转换为i原创 2021-02-08 19:40:16 · 2224 阅读 · 5 评论