关于推荐系统-数据分析中指定数据集稀疏度解决方案及思路

最新推荐文章于 2023-02-23 20:58:53 发布

唐英雄

最新推荐文章于 2023-02-23 20:58:53 发布

阅读量1.5k

点赞数 18

分类专栏：数据集筛选文章标签： python 数据分析算法大数据推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superherotht/article/details/116843991

版权

最近在做用Mvielens100K数据集做推荐系统算法训练，为了在不同高度的稀疏度当中获得实验结果必须对原数据集进行进一步筛选。于是有了下面这个指定数据集稀疏度代码。基础数据格式是python pandas里的DataFrame，和numpy的array。因为需要做的是稀疏度到98%的300*500，3000条记录的稀疏数据集，所以平均每个用户是10条。Temp的含义是不够3000可以额外增加至3000（记录缺失条数）只不过此模块还没完善但是已经达到要求所以没有继续优化。下附源码供大

摘要由CSDN通过智能技术生成

最近在做用Mvielens100K数据集做推荐系统算法训练，为了在不同高度的稀疏度当中获得实验结果必须对原数据集进行进一步筛选。

于是有了下面这个指定数据集稀疏度代码。

基础数据格式是python pandas里的DataFrame，和numpy的array。

因为需要做的是稀疏度到98%的300*500，3000条记录的稀疏数据集，所以平均每个用户是10条。

Temp的含义是不够3000可以额外增加至3000（记录缺失条数）

只不过此模块还没完善但是已经达到要求所以没有继续优化。

下附源码供大家参考：

import pandas as pd
import numpy as np
import random
import operator
'''
数据初始化操作
'''
#设置显示行数
pd.set_option('display.max_rows',200)

'''
正式开始
'''

#从CSV文件导入数据
train =pd.read_csv('D:\\train.csv')
#基础设定
train.set_index(['userid','movieid'],drop=True

最低0.47元/天解锁文章

关注

18
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
关于推荐系统-数据分析中指定数据集稀疏度解决方案及思路

最近在做用Mvielens100K数据集做推荐系统算法训练，为了在不同高度的稀疏度当中获得实验结果必须对原数据集进行进一步筛选。于是有了下面这个指定数据集稀疏度代码。基础数据格式是python pandas里的DataFrame，和numpy的array。因为需要做的是稀疏度到98%的300*500，3000条记录的稀疏数据集，所以平均每个用户是10条。Temp的含义是不够3000可以额外增加至3000（记录缺失条数）只不过此模块还没完善但是已经达到要求所以没有继续优化。下附源码供大
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。