集合(set)完成excel去重
集合(set)是一个无序的不重复元素序列。
可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set()而不是 { },因为 { } 是用来创建一个空字典。
根据 python 集合的一些性质,我们可以发现集合可以帮助我们对大量数据进行去重。
以下运用的数据是搜集的一个比赛获奖信息对应的高校名称:
将 excel 表放在D盘下的桌面上。
import xlrd as xd
data =xd.open_workbook (r'D:\桌面\data.xlsx') #打开excel表所在路径
sheet = data.sheet_by_name('Sheet1') #读取数据,以excel表名来打开
d = []
for i in range(sheet.nrows): #将表中数据按行逐步添加到列表中,最后转换为list结构
d1 = []
for j in range(sheet.ncols):
d1.append(sheet.cell_value(i,j))
d.append(list(d1))
print(d)
输出为:
可以看到数据按照每行以列表的形式全部展示出来,下面将每行列表合为一个列表
import numpy as np
a=sum(d,[])
a
最后直接用 set() 去重:
set(a)
可以看到已经去掉了重复的数据并按照字符顺序排序好了。
(完。)