学会python——文本分词(python实例二)

目录

1、认识Python

2、环境与工具

2.1 python环境

2.2 pycharm编译

3、对文本进行分词

3.1 代码构思

3.2 代码示例

3.3 运行结果

4、总结


1、认识Python

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字或标点符号,它具有比其他语言更有特色的语法结构。

2、环境与工具

2.1 python环境

在Windows上使用命令行窗口查看所安装的python版本

python 

2.2 pycharm编译

在这里可以直接使用社区版的pycharm进行代码编译。

3、对文本进行分词

3.1 代码构思

使用re模块的split()函数对字符串进行分隔

3.2 代码示例

import re
from collections import Counter

# 定义函数,用于查找文本字符串中的每一个单词,并计算出现次数
def get_char(txt):
    # 拆分方式,过滤掉空字符串
    vlist = re.findall(r'\b\w+\b', txt.lower())
    # 使用Counter来统计词频
    vdic_fre = Counter(vlist)
    # 按照频率排序
    vdic_sort = vdic_fre.most_common()
    return vdic_sort

if __name__ == '__main__':
    # 读取文本文件
    with open('test.txt', 'r', encoding='utf-8') as f:
        vtext = f.read()
    # 调用排序函数
    vstr = get_char(vtext)
    print('列出文本中的单词:\n')
    print(vstr)

3.3 运行结果

还需要在代码的目录下新建一个文件:test.txt

输入内容并保存,然后运行程序

4、总结

使用该函数可用作对文本内容进行整理,按照设定的分词方式进行文本分词。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值