NLP
万万冇想到
记录学习点点滴滴,敲打程序自得其乐。
展开
-
开源NLP文本标注工具CatchingFire
做过NLP相关工作内容的小伙伴应该都知道标注数据才是最花时间的部分,因此一个好用的标注工具来提高标注效率尤为重要。调研了多个开源工具后,发现现有大多数标注工具都只是简单的标注功能,并没有利用模型智能辅助标注。因此闲暇之余开发了标注工具CatchingFire(因为标注工具虽然看起来不重要,但是在NLP任务当中占据极为重要的部分,CatchingFire也就是星星之火可以燎原的意思)。标注工具地址为https://github.com/liwan1698/CatchingFire架构图如下:原创 2021-02-14 23:55:18 · 1405 阅读 · 0 评论 -
NLP-分词、词干化、n-gram
分词在NLP中,需要将文本进行单词或词组的分割,以便于构建特征。例如,“i am a student”,可以分词为“i”,“am”,“a student”。由于英文的特点,每个单词都有空格,所以比较好分。但是像中文,只有句子与句子之间才有明显的分割,单词和词组之间无法直接分割,所以就需要一定的规则库对中文分词处理。词干化词干化就是将不同状态的单词进行简化处理,例如listened转化为listen,目的是减少词汇量,进而减少特征。这个是针对英文而言的,中文没有这方面的需要。词袋通过单词出原创 2020-05-17 16:09:08 · 882 阅读 · 0 评论