NLP
shengruxiahua2571
这个作者很懒,什么都没留下…
展开
-
tflite模型部署为服务
背景:在使用albert_zh模型完成文本分类训练后,发现其并没有解决bert推理消耗资源的问题(cpu环境中的问题,gpu环境会好很多),后续尝试了tflite量化模型文件,发现可以减少模型大小为原来的1/2甚至1/4,但是依旧无法提升推理效率。此篇文章记录tflite量化后的模型如何部署为服务。1、使用上述bert模型微调后会生成一个output文件夹,其中包括模型的ckpt文件,参考Save and Restore a tf.estimator for inference可以生成saved_m原创 2020-11-19 17:49:42 · 410 阅读 · 2 评论 -
文本分类特征的选取
一、基本概念自然语言处理(NLP)策略、机器学习(深度学习)相比较基于策略的文本分类方法要求我们得尽量搞清楚影响问题的所有因素的细节,如果问题越来越复杂,手动地制定规则就变得非常困难;机器学习和深度学习可以从样本中学习到更加深层次的内容(知识,规则),同时我们可以通过调整特征和参数不断优化模型的效果。精确率、准确率、召回率二、文本特征选取文本处理的第一步一般是要做分词(也有部分文本处理算法不需要做分词,这里不做讨论),这里介绍两个分词工具,其中最常用的是jieba,两者有很多相似的地方。原创 2020-07-19 16:42:07 · 456 阅读 · 0 评论 -
中文分词的介绍
一、分词的概念一般分词是NLP的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来。在汉语中,虽然是以字为最小单位,但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时,需要进行分词处理,将句子转为词的表示,这就是中文分词。中文分词的三大难点:分词规则、消除歧义、未登录词识别二、当前的分词方法第一类是基于语法和...原创 2020-02-22 16:19:36 · 2537 阅读 · 0 评论