![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
人工智能系列 大数据1-spark中的dataframe
以spark为架构的系统知识
广小辉
这个作者很懒,什么都没留下…
展开
-
大数据1 ---Spark 基础解析
Hadoop 历史 2003和2004年的Google两篇论文 发展历史: 2011年 1.0版本 2012年 稳定版本 2013年 2.x版本, YARN MR的缺点:基于数据集的计算,面向数据,基本运算规则是从存储介质中获取(采集)数据,然后进行计算,将最后的结果存储回介质中,主要用于一次性计算。不适合数据挖掘和机器学习这样的一种迭代计算。MR是基...原创 2020-07-21 21:44:00 · 189 阅读 · 0 评论 -
ALS 算法
一、业务背景 主要是没出评分值的user_item_mat ,计算缺失值; 二、算法推导 三、用python实现算法流程 3.1 生成user_item_mat : import numpy as np LATENT_FACTOR = 4 user_set = tuple(['user' + str(i) for i in range(1, 8)]) item...原创 2019-01-19 17:06:45 · 745 阅读 · 0 评论 -
PYSPARK 学习库
一、pyspark 机器学习库ml 1、ML 和 MLlib的区别 ml 目前处于维护状态(只修复bug而不增加新功能),并且以后会支持ml ,MLlib 在spark3.0中可能会被废弃(学习spark的小伙伴直接用ml库就好) ml库基于DataFrame,MLlib基于RDD 。DataFrame是抽象在rdd之上的,其耦合度低,抽象级别更高; m...原创 2019-01-21 22:48:56 · 278 阅读 · 0 评论 -
pyspark 中DataFrame的操作
1、查询 1.1 行元素的查询操作 --显示: data.show(30) ------ 数据类型:dataframe --取某几行: data.head() ----------数据类型: Row data.take(5) , data.head(5) --------list 类型, 注意:两种数据类型不一样! 以树的形式打印概要,相当于sql 中的des...原创 2019-01-23 10:08:30 · 1178 阅读 · 0 评论