java 遍历dataset_如何在Spark Java中遍历/迭代数据集?

我试图遍历数据集来进行一些字符串相似度计算,如Jaro winkler或Cosine Similarity.我将我的数据集转换为行列表,然后遍历for语句,这不是有效的火花方式.所以我期待在Spark中采用更好的方法.

public class sample {

public static void main(String[] args) {

JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("Example").setMaster("local[*]"));

SQLContext sqlContext = new SQLContext(sc);

SparkSession spark = SparkSession.builder().appName("JavaTokenizerExample").getOrCreate();

List data = Arrays.asList(RowFactory.create("Mysore","Mysuru"),

RowFactory.create("Name","FirstName"));

StructType schema = new StructType(

new StructField[] { new StructField("Word1", DataTypes.StringType, true, Metadata.empty()),

new StructField("Word2", DataTypes.StringType, true, Metadata.empty()) });

Dataset oldDF = spark.createDataFrame(data, schema);

oldDF.show();

List rowslist = oldDF.collectAsList();

}

}

我发现了许多我不清楚的JavaRDD示例.数据集的示例将对我有所帮助.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值