Python多语言语种识别:检测文本是否中英文

先给一些例子,可以直观看出要做什么事,

Input text: "ру́сский язы́к"
Output text: "Russian" 

Input text: "中文"
Output text: "Chinese" 

Input text: "にほんご"
Output text: "Japanese" 

Input text: "العَرَبِيَّة"
Output text: "Arabic"

有比较多的 Python 库可以做这件事情,这个贴子列了七八个,当前还比较流行的,是langdetect。不过它识别率和性能都比较差,而基于神经网络模型的fasttext的效果和性能都更好。但langdetect有很容易理解的编程接口,所以有人基于fasttext做了fasttext-langdetect,易于编程,性能和准确性都很好。

from ftlangdetect import detect

result = detect(text="Bugün hava çok güzel", low_memory=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值