在做一些自然语言处理的相关工作时,总是要读取很多不同类型的文件,作为数据方便后面的处理(包括分词、计算词向量等),因此,受教于本科时期的学长(博客 https://me.csdn.net/alanconstantinelau ),我学习并总结了一些常用的文本的操作函数,方便个人使用和大家学习。
(一)Python常用文本操作函数
import codecs
def writetxt(path, content, code):
with codecs.open(path, 'a', encoding=code)as f:
f.write(content)
return 'OK'
# 写入文本
# 'OK'表示追加写入txt,可以换成'w',表示覆盖写入。'utf8'表述写入的编码,可以换成'utf16'等。
def read_txt(path):
with open(path, 'r', encoding='utf8') as f:
lines = f.readlines()
return lines
# 读取txt文件
# utf8表示读取编码为utf8的文件,可以根据需求改成utf16,或者GBK等。
import xlrd
def read_xls(path):
xl = xlrd.open_workbook(path)
sheet = xl.sheets()[0] # 0表示读取第一个工