文件操作代码:
file2=open("emma_lexicon\lexicon.dic",'r', encoding='UTF-8')
1、“emma_lexicon\lexicon.dic” 这个字符串指的是相对当前python程序文件的路径,要读取的文本就放在这个路径里面;如果要读取的文本是与当前python程序代码文件在同一个目录下,则代码为:
file2=open("lexicon.dic",'r', encoding='UTF-8')
2、‘r’ 这个是read首字母,表示读;相应的还有’w’,‘rb’……
具体看这篇文章的mode参数。
https://www.runoob.com/python/file-methods.html
放个图(只是一部分):
3、encoding=‘UTF-8’ ,用于编码。一般读取中文文本的时候,需要用到这个;如果不用,则有可能出现错误:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x94 in position 8: illegal multibyte sequence
相应的,还可以使用gbk.当然这两个换着使用,有时候有毛病,就是有些文件可以,有些不形,具体不清楚。
哦对,在pandas里面的时候,好像可以设置为:engine=‘python’,意为使用python作为引擎,其实python也是用C写的,所以还可以选择C引擎,具体如代码:
f_csv=pd.read_csv(filename,skipinitialspace=True,engine='python')
一、read()读取整个文本
代码:
file2=open("emma_lexicon\CharacterList.txt",'r',encoding='gbk')
print(file2.read())
输出的内容是所有文本内容,如图:
CharacterList.txt 里面的内容为:
二、readline()读取一整行
代码:
file2=open("emma_lexicon\CharacterList.txt",'r',encoding='gbk')
print(file2.readline())
三、readlines()读取所有行
readlines(),自动把文本做成一个列表了,每一行(包含换行符‘\n’),都作为列表的一个元素,如下所示:
file2=open("emma_lexicon\CharacterList.txt",'r',encoding='gbk')
print(file2.readlines())
更多请看:
https://www.runoob.com/python/file-methods.html
放个图(只是一部分):
喜欢就点个赞叭!