用python对Tag数据的处理

处理目标:

 原始数据为(用户编号,项目编号,标签,时间)格式,现有两个目标:
 1. 只保留tag出现频率较高的前N个tag
 2. 合并每个用户对同一个项目的标签,如下图所示:

一、导入数据:

1、文件以.csv格式存储的,用panda.read_csv进行读取:
其中header=0表示把第一行作为表的列名,如果表没有
列名,设置header=None

	import pandas as pd
    dp = pd.read_csv(path+"tags.csv", header=0) # 获取数据,去掉标题

2、通过.values,将数据存储成了数组

    data = dp.values #得到数组数据

二、找高频率tag:

1、利用Counter函数可以计算元素出现的频率并进行排序,返回Counter类型
({元素:元素出现的次数},…,)

from collections import Counter
    tags = data[:, 2] #获取tag那一列
    rtemp = Counter(tags) #返回统计个数的量

2、再利用它的most_common(N)函数,可以选出前N个高频率的tag,返回类型为[(元素,次数)…(元素,次数)],即元组的列表;

   r=rtemp.most_common(N) # 利用Counter()找到频率出现最高的N个tag

3、最后通过列表解析式来提取最终前N个tag

    selTag = [item[0] for item in r] # 获取N个tag形成的列表

三、合并数据集:

  1. 通过列表解析式结合条件语句挑选原来的数据:
    即:若原始数据的一条记录的标签存在selTag中,就把它加入到selData中
	# 获取原始数据中包含所选tag的数据
    selData = [item for item in data if item[2] in selTag] 
  1. 为了方便接下来进行同用户同项目的记录合并,首先进行排序;
    先按照用户大小排,再按照项目大小排。
	# 进行排序, 先看第一列,再看第二列
    selData.sort(key=lambda selData: (selData[0], selData[1])) 
  1. 开始合并同一个用户对同一个项目添加的标签,多个标签用分隔符“|”
    resultData = [selData[0]] # 保存最终的数据
    for item in selData[1:]:
    	#用户编号和项目编号和上一个记录的相同,则合并
        if(item[0] == resultData[-1][0] and item[1] == resultData[-1][1]):
            resultData[-1][2] +="|"+item[2]
        else:#否则,就添加到最终数据中
            resultData.append(item)

四、 保存数据:

将最终的数组变成DataFrame类型,并用.to_csv保存数据;
其中header = False, 去掉了列名;index = False,去掉了行名;

    dp = pd.DataFrame(resultData)
    dp.to_csv(path+'selectedTags.csv', header = False, index = False)

五、总结

  • 利用pandas的数据读写功能可以很好的处理数据
  • 利用Counter对数据进行统计性词频分析
  • 利用列表解析式简化for循环的使用
  • 合并了前K列元素相同的数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值