pandas是非常好用的python处理数据的工具,速度是原生函数的10倍不止:
1、data = DataFrame([[],[],[]...]),此操作是把一个list变成dataform
2、data[["列名"]]取出某一列
3、data[1:5]取出某几行
4、c1.columns=['18','40']更改列名(改为18,40) 或者 c1.rename(columns = {'20':'18'}),将20改为18.
5、比如合并两个dataform的时候,就需要保证列名相同。然后合并result=c1.append(c2),result是合并之后的结果。或者
result = pd.concat([c1,c2])
6、对某一列去重ch = DataFrame.drop_duplicates(result) ,ch是去重之后的结果。
7、ch.get_values() 是将dataform转变为list[[],[],[]...]
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html dataform使用手册
'''附上以下代码,,读xlsx文件,并对某一列进行去重统计'''
import pandas as dp
from pandas import Dataform
def read_file(src):
#读drop.xlsx
dataset = []
workbook = xlrd.open_workbook(src)
table = workbook.sheets()[0]
print(table.nrows)
for row in range(table.nrows-1):
dataset.append(table.row_values(row+1))
print(dataset[0:10])
#pandas对掉落类型去重统计
data = DataFrame(dataset[0:5])
data_column = data[[2]] #表示第2列
channels = DataFrame.drop_duplicates(data_column)
channels_list = channels.get_values() #dataform转为list
print(channels_list)
print(channels)
return channels_list