大数据
文章平均质量分 70
yuki_0502
这个作者很懒,什么都没留下…
展开
-
深度学习分布式方案(个人笔记)
深度学习分布式方案【 关注三个问题】1、将程序改为分布式,需要改动多少代码2、分布式程序/任务要启动,程序是否复杂?3、分布式模式提升了多少运行效率?【分布式并行架构】(一)PS架构(parameter server)在Parameter server架构(PS架构)中,集群中的节点被分为两类:parameter server和worker。其中parameter server存放模型的参数,而worker负责计算参数的梯度。在每个迭代过程,worker从parameter原创 2022-01-20 11:51:38 · 6637 阅读 · 0 评论 -
What is the difference between spark.sql.shuffle.partitions and spark.default.parallelism?
见:https://stackoverflow.com/questions/45704156/what-is-the-difference-between-spark-sql-shuffle-partitions-and-spark-default-pa原创 2021-02-04 16:35:16 · 89 阅读 · 0 评论 -
【转】spark shuffle:分区原理及相关的疑问
spark shuffle:分区原理及相关的疑问一、分区原理1.为什么要分区?(这个借用别人的一段话来阐述。)为了减少网络传输,需要增加cpu计算负载。数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免的,把大文件压缩变小文件, 从而减少网络传输,但是增加了cpu的计算负载。Spark里面io也是不可避免的,但是网络传输spark里面进行了优化。s..转载 2021-02-04 16:01:38 · 333 阅读 · 0 评论