公众号 系统之神与我同在
http://link.zhihu.com/?target=https%3A//cloud.tencent.com/developer/article/1519291
目前,在NLP任务处理中,Python支持英文处理的开源包有NLTK、Scapy、StanfordCoreNLP、GATE、OPenNLP,支持中文处理的开源工具包有Jieba、ICTCLAS、THU LAC、HIT LTP,但是这些工具大部分仅对特定类型的语言提供支持。本文将介绍功能强大的支持Pipeline方式的多语言处理Python工具包:polyglot。该项目最早是由AboSamoor在2015年3月16日在GitHub上开源的项目,已经在Github收集star 1021个。
Free software: GPLv3 license
Documentation: http://polyglot.readthedocs.org
GitHub: https://github.com/aboSamoor/polyglot
特征
·语言检测 Language Detection (支持196种语言)
·分句、分词 Tokenization (支持165种语言)
·实体识别 Named Entity Recognition (支持40种语言)
·词性标注 Part of Speech Tagging(支持16种语言)
·情感分析 Sentiment(支持136种语言)
·词嵌入 Word Embeddings(支持137种语言)
·翻译 Transliteration(支持69种语言)
·管道 Pipelines