NLP
文章平均质量分 92
aachangs
这个作者很懒,什么都没留下…
展开
-
关于 NLP 中的 tokenize 总结
Tokenize关于 tokenize 的总结,翻译自Summary of TokenizeSubword tokenizationtransformers 使用混合tokenization:Word-Level 和 Character-LevelSubword tokennizaiton算法基于这样一个原则,即经常使用的词不应该被分割成更小的子词,而稀有词应该被分解成有意义的子词。对于BertTokenizer:from transformers import BertTokenizert翻译 2022-05-03 19:32:34 · 1403 阅读 · 0 评论 -
记录小彩的诞生过程
记录搭建一台深度学习电脑的过程(可做一些Kaggle比赛、当然大型单机游戏也不在话下),从选配硬件内容到自己组装完成,一次点亮!nice,记录其中遇到的问题和一些装机技巧。硬件选配清单如下:硬件商品CPUintel i9 10900KF主板微星 Z490 Gaming EDGE WIFI版GPU七彩虹 RTX 2070S Ultra OC内存金士顿 16G单条*2硬盘西数 WDC 1TB 固态散热乔思伯 360 水冷机箱爱国者 药丸原创 2020-08-23 16:13:23 · 193 阅读 · 0 评论 -
MM、RMM、Bi_MM
写在前面的话本文参考《Python自然语言处理实战 核心技术与算法》,一本不可多得的自然语言处理入门书籍。MM、RMM、Bi_MM都是基于规则分词的算法,通过匹配所持有的字典,进行分词。分词结果取决于字典的完整程度和匹配方式。根据SunM.S 和Benjamin K.T(1995)的研究表明,中文中90.0%左右的句子,MM和RMM分词结果重合且完全正确,9.0% 的句子两种方法分词结果不一样...原创 2018-10-20 17:23:24 · 1063 阅读 · 0 评论