文件和数据格式化
知识点1:文件的理解
文件是数据的抽象和集合
文件是存储在辅助存储器上的数据序列
文件是数据存储的一种形式
文件展现形态:文本文件和二进制文件
知识点2:文件的打开关闭
文件处理的步骤:打开-操作-关闭
a = open(,)
操作
a.close()
文件的打开
<变量名> = open(<文件名>,<打开模式>)
文件路径可使用绝对路径或者相对路径
打开模式
‘r' 只读模式,默认值,如果文件不存在,返回FileNotFoundError
'w' 覆盖写模式,文件不存在则创建,存在则完全覆盖
'x' 创建写模式,文件不存在则创建,存在则返回FileExistsError
'a' 追加写模式,文件不存在则创建,存在则在文件最后追加内容
'b'二进制文件模式
't'文本文件模式,默认值
'+' 与r/w/x/a 一同使用,在原功能基础上增加同时读写功能
注:文本形式,默认的打开模式为'rt'
文件关闭
变量名.close()
知识点3:文件内容的读取
f.read(size = -1)读入全部内容,如果给出参数,读入前size长度
f.readline(size=-1) 读入一行内容,如果给出参数,读入该行前size长度
f.readlines(hint = -1) 读入文件所有行,以每行为元素形成列表,如果给出参数,读入前hint行
知识点4:数据的文件写入
f.write(s) 向文件写入一个字符串或字节流
f.writelines(lines) 讲一个元素全为字符串的列表写入文件
f.seek(offset) 改变当前文件操作指针的位置,offset含义如下:
0 文件开头
1 当前位置
2 文件结尾
文件写入之后,指针处于文件末尾
知识点5:csv数据存储格式
CSV : Comma-Separated Values
国际通用的一二维数据存储格式,一般.csv扩展名
每行一个一维数据,采用逗号分隔,无空行
Excel软件可读入输入,一般编辑软件都可以产生
如果某个元素缺失,逗号仍要保留
二维数据的表头可以作为数据存储,也可以另行存储
逗号为英文半角逗号,逗号与数据之间无额外空格
二维数据的存储
按行或者按列存都可以,具体由程序决定
一般索引习惯: ls[row][column],先行后列
根据一般习惯,外层列表每个元素是一行,按行存
知识点6:wordcloud 库的使用
wordcloud库把词云当作一个WordCloud对象
wordcloud.WordCloud()代表一个文本对应的词云
可以根据文本中词语出现的频率等参数绘制词云
wordcloud库常规方法
w = worldcloud.WordCloud()
w.generate(txt) 向WordCloud对象中加载文本txt
w.to_file(filename) 将词云作为图像文件,.png或.jpg格式输出
w = wordcloud.WordCloud(<参数>)
width 制定词云对象生成图片的宽度,默认400像素 eg. w = wordcloud.WordCloud(width=600)
height 制定词云对象生成生成图片的高度,默认200像素
min_font_size 指定词云中字体的最小字号,默认4号
max_font_size 指定词云中字体的最大字号,根据高度自动调节
font_path 指定字体文件的路径,默认None
w = worldcloud.WorldCloud(font_path="msth.ttc")
max_words 指定词云显示的最大单词数量,默认200
stop_words 指定词云的排除词列表,即不显示的单词列表
mask 指定词云形状,默认为长方形,需要引用或imread()函数
from scipy.misc import imread
mk = imread("pic.png")
w = wordcloud.WordCloud(mask = mk)
background_color 指定词云图片的背景颜色,默认为黑色