花了不到一天的时间囫囵吞枣看了相关的几篇文献,还没来得及看代码,所以下述可能说的有不准确的地方,还望斧正。
这个库的地址在 https://github.com/saffsd/langid.py,作者的homepage http://ww2.cs.mu.oz.au/~mlui/ 小哥长得还挺帅哈哈
由于涉及到公式,懒得打了就直接上word文档的截图了哈
一.项目简介
1.1 LangID & langid
Langid是一个现成的语言识别工具。语言识别(LangID)可用于USENET信息,网络搜索词,多语言文本检索,语法分析等领域。从1990年起,LangID就被视为有监督的机器学习任务,并极大地受到文本分类(text categorization)研究的影响[3]。这里我们研究的是单语言(Monolingual)文本的语言识别问题。
langid.py是一个全监督分类器,主要基于多项式(multinomialevent model)的朴素贝叶斯分类器。[1][2] 它用共包括97种语言的多场景(domain)的语料对模型进行了训练,场景包括5类:政府文件,软件文档,新闻电讯,在线百科和网络爬虫。
1.2 langid工具优点
1. 与传统文本识别工具不同,可现成使用(off-the-shelf)