matplotlib,numpy,pandas阶段练习

最新推荐文章于 2023-03-09 22:29:37 发布

Ocelia@

最新推荐文章于 2023-03-09 22:29:37 发布

阅读量404

点赞数 4

分类专栏：人工智能文章标签：人工智能 python matplotlib numpy pandas

本文链接：https://blog.csdn.net/m0_62815456/article/details/125663075

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

该代码段首先读取'rating.txt'文件，通过pandas进行数据处理，包括按指定列排序、去重，并将处理后的数据保存为'ratingNew.txt'。接着，将数据集随机拆分为训练集（80%）和测试集（20%），分别保存为'train.txt'和'test.txt'。最后，展示了如何从'rating.txt'中选取一个随机用户，统计其各评分等级的数量并绘制柱状图。

摘要由CSDN通过智能技术生成

读取文件rating.txt时将该文件放在程序的同一个文件夹中，才能直接引用文件名读取

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1
data = pd.read_csv('rating.txt', sep='\t', names=['userld', 'itemld', 'rating', 'timestamp'])


def sort_data(index, data=[]):
    # 数据转换成矩阵
    data1 = pd.DataFrame(data[index])
    # 删除重复项
    data1.drop_duplicates(inplace=True)
    # 删除后排序，并键值对换
    data2 = pd.Series(range(len(data1)), index=data1[index])
    # 将data中的值和data2中的键对应
    for x in range(len(data)):
        data[index][x] = data2[data[index][x]]


sort_data('userld', data)
sort_data('itemld', data)
data.to_csv('ratingNew.txt', sep='\t', header=None, index=False)
# 2
df = pd.read_csv('ratingNew.txt', sep='\t', names=['userld', 'itemld', 'rating', 'timestamp'])
# 提取百分之80的数据
df1 = df.sample(frac=0.8, replace=False)
# 反向索引
df2 = df[~df.index.isin(df1.index)]
df1.to_csv('train.txt', sep='\t', header=None, index=False)
df2.to_csv('test.txt', sep='\t', header=None, index=False)
# 3
dat = pd.read_csv('rating.txt', sep='\t', names=['userld', 'itemld', 'rating', 'timestamp'])
# 随机抽取用户
user = np.random.randint(0, 942)
# 提取随机到用户的所有数据
user_data = dat[dat['userld'] == user]
user_score = []
for x in range(1, 6):
    user_score.append(len(user_data[user_data['rating'] == x]))
score = list(range(1, 6))
# score为x轴，user_score为y轴
picture = plt.bar(score, user_score)
# 柱形图上标明数据
for x, y in zip(score, user_score):
    plt.text(x, y, '%d' % y, ha='center', va='bottom')
plt.show()

运行结果如下