1 检测处理重复值
1.1 记录重复--list去重
##定义去重函数
def delRep(list1):
list2=[]
for i in list1:
if i not in list2:
list2.append(i)
return list2
## 去重
dishes=DataFrame(detail['dishes_name']) ##将dishes_name从数据框中提取出来
dish = delRep(dishes) ##使用自定义的去重函数去重
缺点:速度慢
1.2 记录重复--set去重
set(集合)具有元素唯一的特性
dish_set = set(dishes)
缺点:使数据的顺序发生改变
1.3 记录重复--drop_duplicates方法
1.3.1 对菜品名称进行去重
DataFrame['disher_name'].drop_duplicates()
1.3.2 对多列进行去重
DataFrame.drop_duplicates(subset = ['列1'],['列2'])
1.4 特征重复
1.4.1 kendall法相似度矩阵
求销量和售价的相似度
DataFrame[['counts', 'amounts']].corr(method='kendall')
1.4.2 person法相似度矩阵
求销量和售价的相似度
DataFrame[['counts', 'amounts']].corr(method='person')