hadoop
文章平均质量分 90
东南枝DP
4年一线大厂经验,高级算法工程师
展开
-
Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)
挺好的一篇文章,补充两个我在按照下面的方法部署时遇到的坑1.由于hdfs的data文件权限不对,而导致datanode无法启动。chmod g-w /opt/data/hadoop/hdfs/data解决方法参考:http://blog.csdn.net/caoshichaocaoshichao/article/details/158115752,由于多次hadoop df转载 2015-06-24 16:57:44 · 534 阅读 · 0 评论 -
从一段代码浅谈pyspark性能优化
问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:sc = SparkSession\ .builder...原创 2018-03-14 17:36:51 · 6347 阅读 · 2 评论