语言种类识别

最新推荐文章于 2024-04-12 09:41:50 发布

猪怼怼

最新推荐文章于 2024-04-12 09:41:50 发布

阅读量723

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/q141711890014/article/details/118031340

版权

#打包成类
class LanguageDetector():
    def __init__(self,classifier=MultinomialNB()):
        self.classifier=classifier # 实例化一个贝叶斯分类器
        self.vectorizer=CountVectorizer(#实例化一个分词器，基于词袋模型
            lowercase=True,  # 字母都变成小写
            analyzer='char_wb', # 以字母为单位解析,不加的化默认以单词为单位解析
            ngram_range=(1,2), # 统计1-3个字母连续出现的概率 ，并记录
            max_features=1000, # 只记录出现次数最多的前1000个字母和字母组合，只有这1000个会记录到字典当中
            preprocessor=self._remove_noise # 在每次处理数据之前，对句子进行函数操作，这个操作会在下一个函数被定义，效果是去除网络格式的信息
            )
        
    def _remove_noise(self,document):
        noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
        clean_text = re.sub(noise_pattern, "", document)
        return clean_text
    
    def features(self,X):
        return self.vectorizer.transform(X)# 利用已有的词典，显示这个句子关键词出现次数 如（0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猪怼怼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言种类识别

class LanguageDetector(): def __init__(self,classifier=MultinomialNB()): self.classifier=classifier # 实例化一个贝叶斯分类器 self.vectorizer=CountVectorizer(#实例化一个分词器，基于词袋模型 lowercase=True, # 字母都变成小写 analyzer='char_wb', #
复制链接

扫一扫