今天试验了FP-Growth算法,日志做处理,打包到集群运行时报错,报错,但是网上找资料找不到 Items in a transaction must be unique but got WrappedArray 出现此问题的主要原因是fpg算法要求输入的数据是RDD(Array[String])类型,但是Array类型中是不允许出现重复的内容的,所以才会出现这个错误,只需要对输入的数据做个distinct即可 这样,就可以正常运行了