python分词脚本 注意python对于中文的编码方式

博客内容涉及Python在处理中文时的编码问题,强调了ASCII无法存储中文,而Unicode是中文在内存的编码,UTF-8用于硬盘存储。文章提到了在处理中文文件时需要进行编码转化,并介绍了split函数在分词中的应用,同时指出Python中数组的下标从0开始。
摘要由CSDN通过智能技术生成

对于中文以及windows下路径的修改是要注意的,尤其是编码方式

ASCII不能存储中文

unicode是中文在内存的编码方式

utf-8是中文在硬盘的编码方式

需要转化尤其是在调用存储的时候

下面的代码先decode的目的在于,将原本存于硬盘的utf-8代码解析成Unicode,然后再转换成utf-8显示

还有就是split对于分词来说十分有用

python下标是从0开始的。。。

# -*- coding: UTF-8 -*-
import os,sys 
import re
str2 = 'C:/Users/Hit/Desktop/文本/199801.txt' 
path = unicode(str2,"utf8") 
fo = open(path) 
fw = open('new.txt','w')
count = 0 
done = 0
while not done:
    line = fo.readline() 
    if line:
        count = count+1 
        if count != 0:
            split_line = line.split("  ")
            clear_time = 1
            for item in split_line:
                if clear_time == 1:
                    clear_time = clear_time + 1
                    continue
                else:
                    term = re.split('/',item)
                    if term[0] != '\n':
                        for word in term[1].split():
                            if word == 'nr' or word == 'ns' or word == 'nz' or word == 'nt':
                                count_nr = 0
                                isfirst = 1
              
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值