python文本分词_【Python】使用jieba对文本进行分词

【参考】

#-*- coding:utf-8 -*-

importjiebaimportsys

reload(sys)

sys.setdefaultencoding('utf8')

char_x2="考勤机分两大类:第一类是简单打印类,打卡时,原始记录数据通过考勤机直接打印在卡片上,卡片上的记录时间即为原始的考勤信息,对初次使用者无需做任何事先的培训即可立即使用;第二类是存储类,打卡时,原始记录数据直接存储在考勤机内,然后通过计算机采集汇总,再通过软件处理,最后形成所需的考勤信息或查询或打印,其考勤信息灵活丰富,对初次使用者需做一些事先培训才能逐渐掌握其全部使用功能。"test1= jieba.cut(char_x2, cut_all=True)print("全模式:" + "|".join(test1))

test2= jieba.cut(char_x2, cut_all=False)print("精确模式:" + "|".join(test2))

test3=jieba.cut_for_search(char_x2)print("搜索引擎模式:" + "|".join(test3))

【打印结果】

全模式: 考勤| 考勤机| 分| 两大类| 大类| | | 第一| 第一类| 一类| 是| 简单| 单打| 打印| 类| | | 打卡| 时| | | 原始| 原始记录| 记录| 数据| 数据通| 通过| 考勤| 考勤机| 直接| 打印| 在| 卡片| 上| | | 卡片| 上| 的| 记录| 记录时间| 时间| 即为| 原始| 的| 考勤| 信息| | | 对| 初次| 使用| 使用者| 用者| 无需| 做| 任何| 何事| 事先| 的| 培训| 即可| 立即| 即使| 使用| | | 第二| 第二类| 二类| 是| 存储| 类| | | 打卡| 时| | | 原始| 原始记录| 记录| 数据| 直接| 存储| 在| 考勤| 考勤机| 机内| | | 然后| 通过| 计算| 计算机| 算机| 采集| 汇总| | | 再| 通过| 软件| 处理| | | 最后| 形成| 所需| 的| 考勤| 信息| 或| 查询| 或| 打印| | | 其| 考勤| 信息| 灵活| 丰富| | | 对| 初次| 使用| 使用者| 用者| 需| 做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 用功| 功能| |精确模式: 考勤机| 分| 两大类| :| 第一类| 是| 简单| 打印| 类| ,| 打卡| 时| ,| 原始记录| 数据| 通过| 考勤机| 直接| 打印| 在| 卡片| 上| ,| 卡片| 上| 的| 记录时间| 即| 为| 原始| 的| 考勤| 信息| ,| 对| 初次| 使用者| 无需| 做| 任何| 事先| 的| 培训| 即可| 立即| 使用| ;| 第二类| 是| 存储| 类| ,| 打卡| 时| ,| 原始记录| 数据| 直接| 存储| 在| 考勤机| 内| ,| 然后| 通过| 计算机| 采集| 汇总| ,| 再| 通过| 软件| 处理| ,| 最后| 形成| 所| 需| 的| 考勤| 信息| 或| 查询| 或| 打印| ,| 其| 考勤| 信息| 灵活| 丰富| ,| 对| 初次| 使用者| 需做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 功能|。

搜索引擎模式:考勤| 考勤机| 分| 大类| 两大类| :| 第一| 一类| 第一类| 是| 简单| 打印| 类| ,| 打卡| 时| ,| 原始| 记录| 原始记录| 数据| 通过| 考勤| 考勤机| 直接| 打印| 在| 卡片| 上| ,| 卡片| 上| 的| 记录| 时间| 记录时间| 即| 为| 原始| 的| 考勤| 信息| ,| 对| 初次| 使用| 用者| 使用者| 无需| 做| 任何| 事先| 的| 培训| 即可| 立即| 使用| ;| 第二| 二类| 第二类| 是| 存储| 类| ,| 打卡| 时| ,| 原始| 记录| 原始记录| 数据| 直接| 存储| 在| 考勤| 考勤机| 内| ,| 然后| 通过| 计算| 算机| 计算机| 采集| 汇总| ,| 再| 通过| 软件| 处理| ,| 最后| 形成| 所| 需| 的| 考勤| 信息| 或| 查询| 或| 打印| ,| 其| 考勤| 信息| 灵活| 丰富| ,| 对| 初次| 使用| 用者| 使用者| 需做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 功能| 。

【待补充】

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面给出一个使用jieba库对大量文本进行分词并分类的示例代码: ```python import jieba import os from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score # 定义数据集路径 data_dir = './data' # 获取所有文件名 filenames = os.listdir(data_dir) # 定义用于存储数据集的列表 data = [] target = [] # 遍历所有文件,读取内容并进行分词 for filename in filenames: filepath = os.path.join(data_dir, filename) with open(filepath, 'r', encoding='utf-8') as f: content = f.read() words = jieba.cut(content) data.append(' '.join(words)) target.append(filename.split('.')[0]) # 构建词向量 count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(data) # 训练朴素贝叶斯分类器 clf = MultinomialNB().fit(X_train_counts, target) # 对训练集进行预测并计算准确率 predicted = clf.predict(X_train_counts) accuracy = accuracy_score(target, predicted) print('训练集准确率:', accuracy) # 对新的文本进行分类 new_text = '今天天气真好' new_words = jieba.cut(new_text) new_data = ' '.join(new_words) X_new_counts = count_vect.transform([new_data]) predicted = clf.predict(X_new_counts) print('新文本分类结果:', predicted[0]) ``` 在这个示例中,我们首先定义了一个数据集路径`data_dir`,然后遍历该路径下的所有文件,读取文件内容并进行分词,将分词后的结果存储在`data`列表中,将文件名(不包含后缀)存储在`target`列表中。 接着,我们使用`CountVectorizer`类将分词后的文本转换为词向量,然后使用`MultinomialNB`类训练朴素贝叶斯分类器。 在训练完成后,我们对训练集进行预测并计算准确率。最后,我们使用新的文本进行分类,并输出分类结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值