【NLP碎碎念】关于口语文本的一点想法

远行人_Xu

于 2020-05-20 17:13:30 发布

阅读量1.4k

点赞数 2

分类专栏： NLP 文章标签： nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38100489/article/details/106240349

版权

（很久没在csdn写文章了，一直在知乎，现在慢慢搬过来，原创在https://blog.csdn.net/weixin_38100489哈）

看了https://zhuanlan.zhihu.com/p/142168215有一点思考。

之前做对话系统时，看实际的对话记录，发现口语文本有如下特点：

一是大量的口语词汇；二是打错字；三是语序错乱。

1、处理错字

很自然有两种思路：一是把错字纠正；二是就把训练集也刻意弄出错字。

1.1、错字纠正

1.1.1、针对应用场景和实际历史记录，做常见错字的规则。（实际上没有想象的那么复杂。比例类似二八定律。）

1.1.2、把原文本和正确文本当做seq2seq去做。（但是训练集从哪里来呢？标不如构造，构造方式见下面的1.2部分）

1.2、向训练集中加入错字

不妨先想想错字是怎么来的，然后再说怎么做。

1.2.1、如果是用本来就含有错字的真实数据做标注，且量足够大，那就不存在这个问题了。（但实际上，多大的量才算大呢？后面的方法还是能提升的）

1.2.2、（英文中的拼写错误对应中文）在按对按键后，在输入法中选择了错误的字词。

（比如，上面这句话，我最初就输入成了“在按对‘案件’后”，无语。。）

可以在训练样本中，分词后选一个词，出拼音，用拼音出候选词列表，选择除了真实词汇之外

最低0.47元/天解锁文章

博客等级

码龄8年

41
原创

123
点赞

261
收藏

17
粉丝

关注

私信

热门文章

分类专栏

NLP 13篇
风控 1篇
深度学习 1篇
python 6篇
numpy-python-2-7 1篇
机器学习--回归
sklearn 1篇
xgboost 2篇
实例 1篇
kaggle 1篇
pymysql 1篇
keras 2篇
opencv 1篇
tensorflow 3篇
时间格式 1篇
决策树及衍生 2篇
机器学习算法 5篇
GBDT 1篇

最新评论

EDA 文本增强（和我的思考）
xiaobaiyang_baiyang: 请问博主，我的文本数据中有一类文本数据特别的少，您有尝试过只对某一类文本数据进行增强吗？或者说这类数据增加的倍数和其他类数据增加的倍数不同
【已解决】pip成功安装模块（如uvicorn）后，无法在命令行中使用（-bash: uvicorn: command not found）
Daletxt: 还有另一个可能原因是uvicorn版本问题，调整到相应的版本
【已解决】pip成功安装模块（如uvicorn）后，无法在命令行中使用（-bash: uvicorn: command not found）
Daletxt: [code=plain] python -m uvicorn main:app --reload [/code] https://stackoverflow.com/questions/59025891/uvicorn-is-not-working-when-called-from-the-terminal
【已解决】notepad++ 连不上服务器
nananani: 哥们你是真牛啊我找一天了真是这个原因感恩！！
from datasets import load_dataset 下不下来，怎么办？
CSDN-Ada助手: Hi 博主，看到您遇到了问题，但不要灰心丧气哦！我们相信您一定可以找到解决方案。我们建议您写一篇关于Python数据集加载和处理的技术博文，介绍如何使用Python中的load_dataset方法加载数据集，包括如何解决无法下载的问题。同时，你也可以分享其他常见的数据集加载方法和数据处理技巧，帮助更多的Python开发者提高工作效率。期待您的精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。