Python实践系列--结巴分词

本文介绍了如何使用Python中的结巴分词库,包括分词功能和JSON文件的读写操作。通过逐行读取TXT文本,结合自定义字典和停用词表,实现了分词处理。程序设计为类,便于在其他项目中复用。
摘要由CSDN通过智能技术生成

结巴分词和一些相关功能

使用一些结巴的基本分词功能以及json文件的读写。
jieba分词库和python其他库的安装一样,本人推荐用pip安装,或者根据使用的是pycharm或者anaconda来安装,不推荐在官网上下载安装包,因为感觉安装过程比较麻烦(个人感受)。

逐行读取txt文本内容

这个本来比较简单的,但是当作复习吧

with open('***.txt', 'r') as file:
    for line in file.readlines():
        print(line.strip())

读取文本的方式有很多种,但是这种出来的效果是更适合我现在写的程序的,这样写的结果在输出的时候和txt中的格式是一样的
可以进行逐行的处理

结巴分词

前提

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值