用python对Tag数据的处理

最新推荐文章于 2023-02-28 20:33:32 发布

呆子哥哥_

最新推荐文章于 2023-02-28 20:33:32 发布

阅读量5k

点赞数

分类专栏： python实践文章标签： python 列表数据分析

本文链接：https://blog.csdn.net/qq_41893638/article/details/105083380

版权

python实践专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Tag数据的python处理

处理目标：
一、导入数据：
二、找高频率tag:
三、合并数据集：
四、保存数据：
五、总结

处理目标：

 原始数据为（用户编号，项目编号，标签，时间）格式，现有两个目标：
 1. 只保留tag出现频率较高的前N个tag
 2. 合并每个用户对同一个项目的标签，如下图所示：

一、导入数据：

1、文件以.csv格式存储的，用panda.read_csv进行读取：
其中header=0表示把第一行作为表的列名，如果表没有
列名，设置header=None

	import pandas as pd
    dp = pd.read_csv(path+"tags.csv", header=0) # 获取数据，去掉标题

2、通过.values,将数据存储成了数组

    data = dp.values #得到数组数据

二、找高频率tag:

1、利用Counter函数可以计算元素出现的频率并进行排序，返回Counter类型
（{元素：元素出现的次数}，…,）

from collections import Counter
    tags = data[:, 2] #获取tag那一列
    rtemp = Counter(tags) #返回统计个数的量

2、再利用它的most_common(N)函数，可以选出前N个高频率的tag，返回类型为[(元素，次数)…(元素，次数)]，即元组的列表；

   r=rtemp.most_common(N) # 利用Counter()找到频率出现最高的N个tag

3、最后通过列表解析式来提取最终前N个tag

    selTag = [item[0] for item in r] # 获取N个tag形成的列表

三、合并数据集：

通过列表解析式结合条件语句挑选原来的数据：
即：若原始数据的一条记录的标签存在selTag中，就把它加入到selData中

	# 获取原始数据中包含所选tag的数据
    selData = [item for item in data if item[2] in selTag]

为了方便接下来进行同用户同项目的记录合并，首先进行排序；
先按照用户大小排，再按照项目大小排。

	# 进行排序， 先看第一列，再看第二列
    selData.sort(key=lambda selData: (selData[0], selData[1]))

开始合并同一个用户对同一个项目添加的标签，多个标签用分隔符“|”

    resultData = [selData[0]] # 保存最终的数据
    for item in selData[1:]:
    	#用户编号和项目编号和上一个记录的相同，则合并
        if(item[0] == resultData[-1][0] and item[1] == resultData[-1][1]):
            resultData[-1][2] +="|"+item[2]
        else:#否则，就添加到最终数据中
            resultData.append(item)

四、保存数据：

将最终的数组变成DataFrame类型，并用.to_csv保存数据；
其中header = False, 去掉了列名；index = False，去掉了行名；

    dp = pd.DataFrame(resultData)
    dp.to_csv(path+'selectedTags.csv', header = False, index = False)

五、总结

利用pandas的数据读写功能可以很好的处理数据
利用Counter对数据进行统计性词频分析
利用列表解析式简化for循环的使用
合并了前K列元素相同的数据