Pyspark
sisiel
厚积薄发
展开
-
pyspark join 出现重复列的问题
设有两个dataframe:df1,df2如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner")df3就会出现两个相同列 device_number此时改成df3=df1.join(df2,“device_number”,"inner")就只有一个device_number了如果想多列key则df.j...原创 2020-02-27 10:34:35 · 3636 阅读 · 1 评论 -
VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported
使用pyspark 中的VectorAssembler出现报错vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')查看输入数据类型df1.printSchema()发现输入的inputCols的字段类型是string,而这个函数只接受flo...原创 2020-01-03 17:42:49 · 3207 阅读 · 0 评论