自然语言处理
文章平均质量分 94
baidu_huihui
这个作者很懒,什么都没留下…
展开
-
PP-OCRv3进行OCR手写文字识别
手写体在日常生活中较为常见,无论是记笔记,亦或是手写书信,再或是现如今出现的各种电子设备也都支持手写输入,或是触摸屏输入,手写体可以说是随处可见。手写体的自动识别功能对于保存手写体的内容是极为重要的。中文汉字字符级别的类别繁多;手写体字符的书写随意性大, 缺乏规范性不同书写人书写风格多样中文汉字中存在很多相似字和易混淆的汉字对以上难点对手写体自动识别都带来了很大的挑战。转载 2024-02-02 15:30:51 · 846 阅读 · 0 评论 -
通用的图像-文本语言表征学习:多模态预训练模型 UNITER
通用的图像-文本语言表征学习:多模态预训练模型 UNITER导读:联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础,一般通过联合处理多模态输入,得到用于实现对视觉和文本的理解。但是,这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Conceptual Captions, and SBU Captions ) 上进行大规模的预训练而获得的,可以通..原创 2020-07-12 01:52:58 · 3048 阅读 · 0 评论 -
周明教授《多语言及多模态任务中的预训练模型》Mari 教授《基于显式上下文表征的语言处理》
AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari教授《基于显式上下文表征的语言处理》、10:10-10:40周明教授《多语言及多模态任务中的预训练模型》导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为博主在聆听各领域教授或专家演讲时,一张一张截图进行保存,希望与大家一起学习,共同进步,一起见证或筑起人工智能的下一个十年。非常欢迎国内外人工智能领域网友,前来留言探讨与分享,同时感谢点赞或评论!09:40-10:10基于显式上下文表...原创 2020-07-12 01:45:44 · 739 阅读 · 1 评论 -
收藏 | Tensorflow实现的深度NLP模型集锦(附资源)
收藏 | Tensorflow实现的深度NLP模型集锦(附资源)THU数据派今天来源:深度学习与NLP本文约2000字,建议阅读5分钟。本文收集整理了一批基于Tensorflow实现的深度学习/机器学习的深度NLP模型。收集整理了一批基于Tensorflow实现的深度学习/机器学习的深度NLP模型。基于Tensorflow的自然语言处理模型,为自然语言处理问题...转载 2019-04-29 16:04:17 · 219 阅读 · 0 评论 -
python+jieba+tfidf算法 文本相似度
python+jieba+tfidf算法 文本相似度2018年05月16日 20:57:28HeCCXX阅读数:9642jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,similarities处理后续。基本思路:jieba进行分...转载 2019-05-21 10:00:23 · 4697 阅读 · 0 评论 -
文本向量化方法比较:tf-idf、doc2bow、doc2vec、lsi、lda
2018.01.28先放个代码和结果,改天闲了总结。用余弦距离计算相似度以判断向量化效果tf-idf、doc2bow稀疏,适合短文本doc2vec效果时好时坏,偶然性大,不稳lsi、lda效果好且较稳,但lda计算量偏大from gensim.models import doc2vecfrom gensim import corpora,modelsimport jieba...原创 2019-05-21 10:03:20 · 4142 阅读 · 3 评论