本练习来自毕滢老师网易数据分析师课程学习笔记
'''
统计书本的平均评分
读取文件rating.txt中的的数据并分析
1.共有10000本书,以数字id表示
2.每个用户的打分为1~5
3.每一行数据有3个数字,分别表示用户ID,书本ID,该用户对该书的打分
要求输出:
所有书本各自的平均得分
'''
import numpy as np
#第一步,读取数据,并转换为整数
data=np.genfromtxt('rating.txt',delimiter=',')
data=data.astype(int)
#第二步,创建两个数组,分别存各个ID书的总得分和总评人数
rating_sum=np.zeros(10000) #每个索引位,对应一个ID书的评分合计
rating_people_count=np.zeros(10000) #每个索引位,对应一个ID的评分人数
#第三步,for循环读取每行数据
for rating in data:
book_id=rating[1]-1 #此处book_id为索引号,读取索引号为下面两变量赋值作准备
rating_sum[book_id] += rating[2] #第3个数即是评分 加上评分
rating_people_count[book_id] +=1 #读一个数据,加上一个评分人
#第四步,输出平均得分
rating_avg=rating_sum/rating_people_count
print(rating_avg.reshape(10000,1))
'''输出:
[[4.27970709]
[4.35135011]
[3.21434056]
...
[4.32352941]
[3.70769231]
[4.00900901]]
[Finished in 31.8s]
'''
所需文本数据在附件里,免积分下载.
---------------------------------------------------------------------------------------------------------------------------------------
windows下Python扩展二进制包集散网站,好比门户网站
https://www.lfd.uci.edu/~gohlke/pythonlibs/#vlfd
首先去 http://www.lfd.uci.edu/~gohlke/pythonlibs/#vlfd 下载对应依赖包,这是外国友人维护的界面风格比较单调,新手朋友们莫被密密麻麻字符吓跑了,进到页面直接 ctrl+F 搜索你需要的包,下载回来安装便是。
原文链接:https://blog.csdn.net/a132582/article/details/70342033
---------------------------------------------------------------------------------------------------------------------------------------
使用Numpy进行矩阵的基本运算