python分词脚本注意python对于中文的编码方式

最新推荐文章于 2023-05-24 18:03:59 发布

vvickey11

最新推荐文章于 2023-05-24 18:03:59 发布

阅读量457

点赞数

分类专栏： Python，文本处理文章标签：自然语言文本处理

本文链接：https://blog.csdn.net/vvickey11/article/details/72730877

版权

博客内容涉及Python在处理中文时的编码问题，强调了ASCII无法存储中文，而Unicode是中文在内存的编码，UTF-8用于硬盘存储。文章提到了在处理中文文件时需要进行编码转化，并介绍了split函数在分词中的应用，同时指出Python中数组的下标从0开始。

摘要由CSDN通过智能技术生成

对于中文以及windows下路径的修改是要注意的，尤其是编码方式

ASCII不能存储中文

unicode是中文在内存的编码方式

utf-8是中文在硬盘的编码方式

需要转化尤其是在调用存储的时候

下面的代码先decode的目的在于，将原本存于硬盘的utf-8代码解析成Unicode，然后再转换成utf-8显示

还有就是split对于分词来说十分有用

python下标是从0开始的。。。

# -*- coding: UTF-8 -*-
import os,sys 
import re
str2 = 'C:/Users/Hit/Desktop/文本/199801.txt' 
path = unicode(str2,"utf8") 
fo = open(path) 
fw = open('new.txt','w')
count = 0 
done = 0
while not done:
    line = fo.readline() 
    if line:
        count = count+1 
        if count != 0:
            split_line = line.split("  ")
            clear_time = 1
            for item in split_line:
                if clear_time == 1:
                    clear_time = clear_time + 1
                    continue
                else:
                    term = re.split('/',item)
                    if term[0] != '\n':
                        for word in term[1].split():
                            if word == 'nr' or word == 'ns' or word == 'nz' or word == 'nt':
                                count_nr = 0
                                isfirst = 1