处理目标:
原始数据为(用户编号,项目编号,标签,时间)格式,现有两个目标:
1. 只保留tag出现频率较高的前N个tag
2. 合并每个用户对同一个项目的标签,如下图所示:
一、导入数据:
1、文件以.csv格式存储的,用panda.read_csv进行读取:
其中header=0表示把第一行作为表的列名,如果表没有
列名,设置header=None
import pandas as pd
dp = pd.read_csv(path+"tags.csv", header=0) # 获取数据,去掉标题
2、通过.values,将数据存储成了数组
data = dp.values #得到数组数据
二、找高频率tag:
1、利用Counter函数可以计算元素出现的频率并进行排序,返回Counter类型
({元素:元素出现的次数},…,)
from collections import Counter
tags = data[:, 2] #获取tag那一列
rtemp = Counter(tags) #返回统计个数的量
2、再利用它的most_common(N)函数,可以选出前N个高频率的tag,返回类型为[(元素,次数)…(元素,次数)],即元组的列表;
r=rtemp.most_common(N) # 利用Counter()找到频率出现最高的N个tag
3、最后通过列表解析式来提取最终前N个tag
selTag = [item[0] for item in r] # 获取N个tag形成的列表
三、合并数据集:
- 通过列表解析式结合条件语句挑选原来的数据:
即:若原始数据的一条记录的标签存在selTag中,就把它加入到selData中
# 获取原始数据中包含所选tag的数据
selData = [item for item in data if item[2] in selTag]
- 为了方便接下来进行同用户同项目的记录合并,首先进行排序;
先按照用户大小排,再按照项目大小排。
# 进行排序, 先看第一列,再看第二列
selData.sort(key=lambda selData: (selData[0], selData[1]))
- 开始合并同一个用户对同一个项目添加的标签,多个标签用分隔符“|”
resultData = [selData[0]] # 保存最终的数据
for item in selData[1:]:
#用户编号和项目编号和上一个记录的相同,则合并
if(item[0] == resultData[-1][0] and item[1] == resultData[-1][1]):
resultData[-1][2] +="|"+item[2]
else:#否则,就添加到最终数据中
resultData.append(item)
四、 保存数据:
将最终的数组变成DataFrame类型,并用.to_csv保存数据;
其中header = False, 去掉了列名;index = False,去掉了行名;
dp = pd.DataFrame(resultData)
dp.to_csv(path+'selectedTags.csv', header = False, index = False)
五、总结
- 利用pandas的数据读写功能可以很好的处理数据
- 利用Counter对数据进行统计性词频分析
- 利用列表解析式简化for循环的使用
- 合并了前K列元素相同的数据