自然语言处理
233彭于晏
勤勤恳恳搬砖工,让我们手牵手打代码~
展开
-
ALBERT真的瘦身成功了吗?
前言最近在项目中使用BERT更新了服务久矣的TextCNN,但更新之路较为崎岖。线下验证BERT-Base版本较TextCNN提高较为明显,但是推到线上,Inference时间爆炸了;无奈,只好减少Transformer层数,由12层减少到4层,由于此项目场景下的Input较短,所以使用4层Transformer并没有太多效果层的损失,性能上Inference时间减少了2.3倍,后面又将服务由...原创 2020-01-15 21:30:20 · 850 阅读 · 2 评论 -
rasa框架意图分类embedding算法
算法模型intent_classifier_tensorflow_embedding点击此处获取算法代码算法框架算法框架算法思想把训练样本和意图编码到同一个向量空间,设计损失函数,使得样本与真实意图更相近,样本与其他意图更相反,意图之间编码更相反,达到意图分类的目的。举个例子说明,假设有两条训练样本“我要充话费”和“我要订机票”,有四个意图“订机票”、“查天气”,“充话...原创 2019-05-20 11:05:00 · 2043 阅读 · 0 评论 -
TextCNN-基于卷积神经网络的文本分类
1 简述 在没有监督数据的时候,采用无监督算法的方式可以计算两句话的相似度,即通过一些因子,比如语序、词性、共现词比例等等进行打分,最后通过加权计算的方式得到最终的相似分值,最终结果主要依赖因子即特征的提取和加权公式的设计,相关项目可以参考Kaggle Quora比赛华人第一名的解决方案,里面有一些优秀的可借鉴特征。 但是最终想要更好的效果必然要使用到有监督的算法,而现有较好的技...原创 2019-04-02 17:38:00 · 4117 阅读 · 1 评论 -
bert中文微调tensorflow降版本过程
简述bert是谷歌提出的自然语言处理领域的大杀器,个人感觉相当于重新定义了自然语言处理领域各个任务的效果上限,就拿文本分类来说,目前竭尽全力调试模型和清洗数据等等trick操作,上了bert之后,一般都会比之前的效果要好上几个点,所以对于时效性要求不高的方向,比如离线需求,别浪费力气了,all in bert吧;对于时效性要求高的方向,比如在线服务接口,可以对bert进行剪枝,在精度损失较小的...原创 2019-08-20 10:19:11 · 6978 阅读 · 6 评论