语言种类识别

#打包成类
class LanguageDetector():
    def __init__(self,classifier=MultinomialNB()):
        self.classifier=classifier # 实例化一个贝叶斯分类器
        self.vectorizer=CountVectorizer(#实例化一个分词器,基于词袋模型
            lowercase=True,  # 字母都变成小写
            analyzer='char_wb', # 以字母为单位解析,不加的化默认以单词为单位解析
            ngram_range=(1,2), # 统计1-3个字母连续出现的概率 ,并记录
            max_features=1000, # 只记录出现次数最多的前1000个字母和字母组合,只有这1000个会记录到字典当中
            preprocessor=self._remove_noise # 在每次处理数据之前,对句子进行函数操作,这个操作会在下一个函数被定义,效果是去除网络格式的信息
            )
        
    def _remove_noise(self,document):
        noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
        clean_text = re.sub(noise_pattern, "", document)
        return clean_text
    
    def features(self,X):
        return self.vectorizer.transform(X)# 利用已有的词典,显示这个句子关键词出现次数 如(0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值