以wordsim240为例
目前大多数的数据集以txt文件居多,但是我们在数据处理中,可能最终会在Excel上进行一些分析、制图,
当然也可以使用python制图包,也可以做出很精美的结果图。
此篇只是简单的读取,文件,保存到Excel中,可以做一些回归分析、相关系数等;
txt中的原始数据
import pandas as pd
data = pd.read_csv('240-set.txt', sep='\t', names=['word1', 'word2', 'sim'])
# data.to_excel('240.xlsx')
sep="\t"是原始文档间的空格每一个文档可能都不一样,可能有空格,逗号或者是\n,根据情况选择
names用来设置列名,如果不设置的话,则默认使用第一列作为列名,返回结果看起来非常奇怪!
这样一行的代码,看起来就是非常的整齐舒服。
接下来的话,就是可以把数据保存到Excel中,
data.to_excel('240.xlsx')
一句话即可,将处理的文档写入到当前路径中的Excel中了
读取某行某列的数据。可以使用这样的索引方式
我们现在想要获取前5行的两个词语
for i in range(5):
print(data.loc[i][0], data.loc[i][1])
data.loc即是行的索引,后面的[0], [1] ,[2]即是对应的列值