![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 94
龙海L
金牛座理工男,请多多指教,多多打赏点赞
展开
-
pyspark 入门
为什么用 python中pandas是数据分析的利器,具有并行的特兹那个,而且函数和数据计算的方法非常方便,是数据分析中的瑞士军刀。但是受限于单个机器性能和配置的限制,当大规模数据,比如100G-10TB规模的数据时,pandas就显得局限了,就像瑞士军刀杀牛,难以下手。这时就需要基于分布式计算的大数据工具spark,是基于分布式计算,可以基于hadoop和hive,进行分布式的数据计算,同时spark具有python API,可以通过类似python的语法,无门槛的过渡。 怎么用 pyspark支持RDD原创 2021-10-11 11:51:31 · 886 阅读 · 0 评论 -
传统推荐系统方法理论
传统推荐系统方法理论 文章目录传统推荐系统方法理论基于内容的推荐系统的原理基于矩阵分解的推荐系统的原理基于商品的协同过滤的推荐系统的原理基于用户的协同过滤的推荐系统的原理冷启动问题如何评估推荐系统的性能以及这些算法的优缺点混合算法推荐系统评估使用矩阵分解构建电影推荐系统 电影推荐系统原理: 需要数据:电影评分表 电影内容矩阵 基于内容的推荐系统的原理 代价函数 基于矩阵分解的推荐系统的原理 电影...原创 2020-01-07 10:38:43 · 1011 阅读 · 0 评论 -
利用TsunamiUDP加速机房迁移
利用TsunamiUDP加速机房迁移部署或者从sf.net下载使用1.防火墙调整2.开启服务端3.开启客户端跨机房迁移示例方法1 使用wget下载方法2.使用TsunamiUDP工具总结 部署 部署所需的代码如下: yum -y install automake autoconf git clone git://github.com/rriley/tsunami-udp.git cd tsunam...原创 2019-11-23 11:00:26 · 252 阅读 · 0 评论 -
实时数据可视化方案——PubNub+PowerBI
数据可视化在现代数据爆炸和数据高度冗余的时代有着越来越大的作用,就像一个厨师,将数据烹饪之后给大众,这样才能让人们吃的美味,容易吸收消化。直观的可视化方案让数据更能表达出蕴含的信息。而实时的可视化方案让人们在时间上对信息的获取更加具有实时性与价值感。下面给大家提供一个快速搭建数据实时可视化显示的方案,利于上手,拓展功能也极为强大。 ...原创 2019-12-22 08:57:46 · 817 阅读 · 0 评论