![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
jin_tmac
这个作者很懒,什么都没留下…
展开
-
hive 导入导出csv文件
首先在hive中创建自己的table, 并且设置以逗号分隔。确定tmp.hb_label_C表的分布式文件路径。将CSV文件导入到hive数据库,具体操作如下,最后在linux命令行输入。原创 2022-09-14 12:19:25 · 5951 阅读 · 0 评论 -
Spark addFile()和hdfs上传文件对比
在用spark进行集群分布式模型打分等操作时。可以有两种方式上传文件sc.addFile和hdfs上。原创 2022-07-27 14:49:46 · 1057 阅读 · 0 评论 -
pyspark基于python虚拟环境运行
1.背景目前大数据使用的是Amazon EMR集群,该集群可根据计算需求变化灵活扩展或收缩集群,就会存在一个问题:当spark任务提交之后,EMR集群会根据计算的需求进行扩展,新扩展的机器上python环境各不相同,并且每次扩展的机器ip不相同(不是同一台机器),对某些第三方包,例如:pandas 还会依赖numpy,并且对版本还有一定要求,必须大于15.4;此时python依赖的冲突就会导致spark任务执行失败。2.解决方案鉴于以上问题,通过搭建独立的Python运行环境可以解决以上问题,同时还可转载 2022-05-26 15:05:25 · 1310 阅读 · 0 评论 -
xgboost4j报错:Check failed:preds.Size()==info.labels_.Size()
运行过程中报出以下错误:ml.dmlc.xgboost4j.java.XGBoostError: [14:15:26] D:\a\xgboost\xgboost\src\objective\regression_obj.cu:36: Check failed: info.labels.Size() == preds.Size() (51922 vs. 103844) : Invalid shape of labels.报错发生原因不清楚。解决方案是:xgboost的配置参数里,如果指定了“ob转载 2022-04-20 14:17:45 · 1466 阅读 · 1 评论 -
Spark、Hive常见问题整理
1、sc.addFile() 、pyspark.SparkFiles.get()把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径,从而能够保证driver和每个worker都能正确访问到文件。......原创 2022-04-01 16:20:00 · 2390 阅读 · 0 评论 -
Sparksql行列转换
首先创建一个测试数据from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSessionspark=SparkSession.builder.appName('TestAPP') .enableHiveSupport() .getOrCreate()df = spark.createDataFrame([('math','alice',88), ('chinese','alice',92原创 2022-04-12 14:26:45 · 3329 阅读 · 0 评论