备忘一下~
之前在看腾讯开源的词向量时,Tencent AI Lab Embedding Corpus for Chinese Words and Phrases,在看到Simple Cases那里,瞬间感到震撼!!果然大公司就是大公司,有钱有地位。。。
跟着公司做了一些技术研究和项目后,发现目前nlp之所以发展没到位,最主要原因就是:算法和数据分家
。算法层面,目前整个学术界没有大的进步,另外像GPT3这种,一般玩不起。数据层面,没人开源数据,即使开源了,标注质量参差不齐,标注标准也是如此。那大家比什么,比的只有算法喽,结果最后就是华而不实(工业上应用)~。
那回到开始,觉得震撼之余,就在想那腾讯肯定也有相应的分词,结果找了半天,没找到。今天突然发现了,窃喜之余,记录一下。
关于它的介绍,TexSmart: 文本理解工具与服务,以及它的Demo,整体效果看下来,要好于目前很多开源的(当然,你懂我意思),大家算法可能都差不多。
但是分为离线版和http api版,差距有多大,这个木有尝试,反正官方说有差距。
以后尝试尝试。
参考地址: