python spark 求解最大最小平均中位数

最新推荐文章于 2023-10-21 10:48:34 发布

weixin_34185320

最新推荐文章于 2023-10-21 10:48:34 发布

阅读量673

点赞数

文章标签：大数据 python

原文链接：https://yq.aliyun.com/articles/396695

版权

rating_data_raw = sc.textFile("%s/ml-100k/u.data" % PATH)
print rating_data_raw.first()
num_ratings = rating_data_raw.count()
print "Ratings: %d" % num_ratings


# In[35]:

rating_data = rating_data_raw.map(lambda line: line.split("\t"))
ratings = rating_data.map(lambda fields: int(fields[2]))
max_rating = ratings.reduce(lambda x, y: max(x, y))
min_rating = ratings.reduce(lambda x, y: min(x, y))
mean_rating = ratings.reduce(lambda x, y: x + y) / float(num_ratings)
median_rating = np.median(ratings.collect())
ratings_per_user = num_ratings / num_users
ratings_per_movie = num_ratings / num_movies
print "Min rating: %d" % min_rating
print "Max rating: %d" % max_rating
print "Average rating: %2.2f" % mean_rating
print "Median rating: %d" % median_rating
print "Average # of ratings per user: %2.2f" % ratings_per_user
print "Average # of ratings per movie: %2.2f" % ratings_per_movie


# In[36]:

# we can also use the stats function to get some similar information to the above
ratings.stats()

上面是粗暴的做法

简单的做法：

>>> all_data = sc.parallelize([1,2,3,4,5,6,7,8,100])
>>> all_data.mean()
15.11111111111111
>>> all_data.max()
100
>>> all_data.min()
1
>>> all_data.median()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'RDD' object has no attribute 'median'
>>> all_data.stats()
(count: 9, mean: 15.1111111111, stdev: 30.0903987804, max: 100.0, min: 1.0)

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7153889.html ，如需转载请自行联系原作者

weixin_34185320

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python spark 求解最大最小平均中位数

rating_data_raw = sc.textFile("%s/ml-100k/u.data" % PATH)print rating_data_raw.first()num_ratings = rating_data_raw.count()print "Ratings: %d" % num_ratings# In[35]:ra...
复制链接

扫一扫