Python:langdetect和langid检测语言类型

最新推荐文章于 2024-08-27 15:23:09 发布

埃菲尔没有塔尖

最新推荐文章于 2024-08-27 15:23:09 发布

阅读量3.1k

点赞数 1

分类专栏：【Python高级】

本文链接：https://blog.csdn.net/weixin_38819889/article/details/103167845

版权

【Python高级】专栏收录该内容

95 篇文章 40 订阅

订阅专栏

需求问题：

前几天，因为工作的需要，要求对爬取的语料进行语种识别，所以在网上查阅了一些资料。在这里跟大家介绍下两个语言检测工具langdetect和langid。

1.langid模块

在这里提供一下，官方文档。大家有兴趣的话，可以去研究下。https://github.com/saffsd/langid.py

安装方法也很简单，直接下DOS 命令行输入下面命令：

pip install langid

在这里插入图片描述
langid 模块提供了一个很重要的方法 langid.classify()。
该方法返回的结果是元组类型（），元组的第一个参数代表语言类型，第二个参数代表该语言的可信度。

代码如下：

import langid

language1 = "今天是2019.11.20号，距离过年还有3个月。加油，加油！！！"
language2 = 'Thanks for his honesty and courage, the truth will not be covered by lies.'
language3 = "Temuan-temuan awal ini masih perlu untuk dikonfirmasi oleh penelitian lebih lanjut"

print(langid.classify(language1))
print(langid.classify(language2))
print(langid.classify(language3))

输出结果如下：

(‘zh’, -259.3397614955902) # zh代表中文
(‘en’, -192.87218618392944) # en 代表英语
(‘id’,-95.6275782585144) # id 代表印尼语

注意下：自己测试了下，语言的检测率还可以，但是效率太慢了。输出的语言类型是参考ISO 639-1语言编码标准。
详情可参考百度百科：ISO 639-1

2.langdetect 模块

安装方法也很简单，在DOS 窗口下输入下面的命令：

pip install langdetect

在这里插入图片描述
langdetect 模块提供了两个很重要的方法。

一个是langdetect .detect() 该方法是检测语言的类型
另外一个是langdetect.detect_langs() 该方法是检测所有语言类型及其所占的比例。

代码如下：

import langdetect
language1 = "今天是2019.11.20号，距离过年还有3个月。加油，加油！！！"
language2 = 'Thanks for his honesty and courage, the truth will not be covered by lies.'
language3 = "Hello，world。Python 生命之旅！！"

print(langdetect.detect(language1))
print(langdetect.detect(language2))
print(langdetect.detect(language3))
print(langdetect.detect_langs(language1))
print(langdetect.detect_langs(language3))

输入结果如下：