自然语言处理
孟知之
知之为知之
展开
-
【自然语言处理】文本分类-数据倾斜处理方案
1.训练集重新采样分布1.1 欠采样欠采样是通过减少丰富类的大小来平衡数据集,当数据量足够时就该使用此方法。通过保存所有稀有类样本,并在丰富类别中随机选择与稀有类别样本相等数量的样本,可以检索平衡的新数据集以进一步建模。1.2 过采样当数据量不足时就应该使用过采样,它尝试通过增加稀有样本的数量来平衡数据集,而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法(SMOT...原创 2019-04-01 19:38:55 · 717 阅读 · 0 评论 -
【自然语言处理】词性标注-HMM算法
traindata.txt的数据格式Newsweek/NNP,/,trying/VBGto/TOkeep/VBpace/NNwith/INrival/JJTime/NNPmagazine/NN,/,announced/VBDnew/JJadvertising/NNrates/NNSfor/IN1990/CDand/CCsaid/VBDit/PRPwill/MDtag2id, id2tag = {}, {} # maps tag to id . tag2id:原创 2021-05-13 19:07:05 · 765 阅读 · 3 评论 -
【自然语言处理】预训练模型BERT的发展现状
目前,从bert的应用来看,已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用,并在部分应用领域取得了突破性的效果提升。1. BERTBERT基于一种相对较新的神经网络结构——Transformers,使用一种叫做“Self-attention”的机制来捕捉单词之间的关系。Transformers中没有卷积(如CNNs)或递归操作(如RNNs)(“Attenti...原创 2020-03-11 22:59:11 · 1260 阅读 · 0 评论 -
【自然语言处理】分词工具与问答系统
写完之后,重新看一下哪一部分比较慢,然后试图去优化。一个好的习惯是每写一部分就思考这部分代码的时间复杂度和空间复杂度,AI工程是的日常习惯!Part 1: 搭建一个分词工具Part 1.1 基于枚举方法来搭建中文分词工具此项目需要的数据:综合类中文词库.xlsx: 包含了中文词,当做词典来用以变量的方式提供了部分unigram概率 word_prob举个例子: 给定词典=[我们 ...原创 2020-03-06 09:29:59 · 1550 阅读 · 2 评论 -
【自然语言处理】实际工程中运用深度学习挖掘文本的思考
1.优点可以使用非监督数据训练字词向量,提高泛化能力端到端,提供新思路一些模型结构能够克服传统模型的缺点2.缺点小数据量情况下难以保证效果调参工作量有时不亚于特征工程客户部署硬件环境限制3.思考在业务场景下,尽量收集并理解数据,分析问题本质,选择合适模型初始阶段可以使用传统机器学习模型(CRF)快速尝试,再引入深度学习技术疑难问题使用端到端的方式也许会有惊喜关注最...原创 2020-02-21 20:02:31 · 329 阅读 · 0 评论 -
【自然语言处理】情绪识别
情绪识别,其实就是多分类。 构造特征工程。混淆矩阵来分析分类错误数据。原创 2020-02-07 22:19:53 · 1161 阅读 · 0 评论 -
【自然语言处理】拼写纠错
利用编辑距离生成给定输入的候选集合# 词典库vocab = set([line.rstrip() for line in open('vocab.txt')])# 需要生成所有候选集合def generate_candidates(word): """ word: 给定的输入(错误的输入) 返回所有(valid)候选集合 """ # 生成编辑距离...原创 2020-02-07 22:19:00 · 489 阅读 · 2 评论