java 获取dataset_生成dataset的几种方式

1.常用的方式通过sparksession读取外部文件或者数据生成dataset(这里就不讲了)

注: 生成Row对象的方法提一下:RowFactory.create(x,y,z),取Row中的数据使用row.getAs("列名")来获取对应的列值或者row.getInt(0),row.getString(1)(但这个要注意顺序)

2.通过调用createDataFrame生成Dataset

通过反射的方式将非json格式的RDD转换成DataFrame(不建议使用)

自定义类要可序列化

自定义类的访问级别是Public

RDD转成DataFrame后会根据映射将字段按Assci码排序

将DataFrame转换成RDD时获取字段两种方式,一种是df.getInt(0)下标获取(不推荐使用),另一种是df.getAs(“列名”)获取(推荐使用)

关于序列化问题:

1.反序列化时serializable 版本号不一致时会导致不能反序列化。

2.子类中实现了serializable接口,父类中没有实现,父类中的变量不能被序列化,序列化后父类中的变量会得到null。

注意:父类实现serializable接口,子类没有实现serializable接口时,子类可以正常序列化

3.被关键字transient修饰的变量不能被序列化。

4.静态变量不能被序列化,属于类,不属于方法和对象,所以不能被序列化。

另外:一个文件多次writeObject时,如果有相同的对象已经写入文件,那么下次再写入时,只保存第二次写入的引用,读取时,都是第一次保存的对象。

1 /**方法1

2 * 注意:3 * 1.自定义类必须是可序列化的4 * 2.自定义类访问级别必须是Public5 * 3.RDD转成DataFrame会把自定义类中字段的名称按assci码排序6 */

7 SparkConf conf = newSparkConf();8 conf.setMaster("local").setAppName("RDD");9 JavaSparkContext sc = newJavaSparkContext(conf);10 SQLContext sqlContext = newSQLContext(sc);11 JavaRDD lineRDD = sc.textFile("sparksql/person.txt");12 JavaRDD personRDD = lineRDD.map(new Function() {13

14 /**

15 *16 */

17 private static final long serialVersionUID = 1L;18

19 @Override20 public Person call(String s) throwsException {21 Person p = newPerson();22 p.setId(s.split(",")[0]);23 p.setName(s.split(",")[1]);24 returnp;25 }26 });27 /**

28 * 传入进去Person.class的时候,sqlContext是通过反射的方式创建DataFrame29 * 在底层通过反射的方式获得Person的所有field,结合RDD本身,就生成了DataFrame30 */

31 DataFrame df = sqlContext.createDataFrame(personRDD, Person.class);32

33 class Person implementsSerializable {34 private static final long serialVersionUID = -6907013906164009798L;35 privateString Id;36 privateString name;37

38

39

40 public voidsetId(String appId) {41 this.appId =appId;42 }43

44 publicString getId() {45 returnappId;46 }47

48 publicString getname() {49 returndetail;50 }51

52 public voidsetname(String detail) {53 this.detail =detail;54 }55 }

1 //方法2:

2 JavaRDD lineRDD = sc.textFile("./sparksql/person.txt");3 /**

4 * 转换成Row类型的RDD5 */

6 JavaRDD rowRDD = lineRDD.map(new Function() {7

8 /**

9 *10 */

11 private static final long serialVersionUID = 1L;12

13 @Override14 public Row call(String s) throwsException {15 return RowFactory.create(//这里字段顺序一定要和下边 StructField对应起来

16 String.valueOf(s.split(",")[0]),17 String.valueOf(s.split(",")[1]),18 );19 }20 });21 /**

22 * 动态构建DataFrame中的元数据,一般来说这里的字段可以来源自字符串,也可以来源于外部数据库23 */

24 List asList =Arrays.asList(//这里字段顺序一定要和上边对应起来

25 DataTypes.createStructField("id", DataTypes.StringType, true),26 DataTypes.createStructField("name", DataTypes.StringType, true)27 );28 StructType schema =DataTypes.createStructType(asList);29 /*

30 StructType schema = new StructType(new StructField[]{31 new StructField("id", DataTypes.StringType, false, Metadata.empty()),32 new StructField("name", DataTypes.StringType, false, Metadata.empty()),33 });34 */

35 //DataFrame df = sqlContext.createDataFrame(List ,schema)这个方法也可以

36 DataFrame df = sqlContext.createDataFrame(rowRDD, schema);

1 //方法3

2 public static class Person implementsSerializable {3 privateString name;4 private intage;5

6 publicString getName() {7 returnname;8 }9

10 public voidsetName(String name) {11 this.name =name;12 }13

14 public intgetAge() {15 returnage;16 }17

18 public void setAge(intage) {19 this.age =age;20 }21 }22

23 //Create an instance of a Bean class

24 Person person = newPerson();25 person.setName("Andy");26 person.setAge(32);27

28 //Encoders are created for Java beans

29 Encoder personEncoder = Encoders.bean(Person.class);30 Dataset javaBeanDS =spark.createDataset(31 Collections.singletonList(person),32 personEncoder33 );34 javaBeanDS.show();35 //+---+----+36 //|age|name|37 //+---+----+38 //| 32|Andy|39 //+---+----+40

41 //Encoders for most common types are provided in class Encoders

42 Encoder integerEncoder =Encoders.INT();43 Dataset primitiveDS = spark.createDataset(Arrays.asList(1, 2, 3), integerEncoder);44 Dataset transformedDS =primitiveDS.map(45 (MapFunction) value -> value + 1,46 integerEncoder);47 transformedDS.collect(); //Returns [2, 3, 4]48

49 //DataFrames can be converted to a Dataset by providing a class. Mapping based on name

50 String path = "examples/src/main/resources/people.json";51 Dataset peopleDS =spark.read().json(path).as(personEncoder);52 peopleDS.show();53 //+----+-------+54 //| age| name|55 //+----+-------+56 //|null|Michael|57 //| 30| Andy|58 //| 19| Justin|59 //+----+-------+

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,Dataset是Spark 2.0引入的一个新的API,它是强类型的数据集合,旨在弥补DataFrame和RDD之间的差距,同时提供类型安全和面向对象的编程模型。 与DataFrame不同,Dataset不仅提供了类似于SQL的查询功能,还提供了更多的面向对象的API,因此更适合于开发人员进行复杂的数据分析和操作。 Dataset还具有更好的类型安全性,因为它们是强类型的,这意味着编译器可以在编译时捕获类型不匹配的错误,而不是在运行时抛出异常。 在使用Dataset时,我们可以使用Scala或Java编写类型安全的代码,并在运行时获得更好的性能。 下面是一个简单的Java示例,演示如何使用Dataset: ``` // 创建一个SparkSession对象 SparkSession spark = SparkSession.builder() .appName("Java Dataset Example") .master("local") .getOrCreate(); // 读取一个CSV文件,并将其转换为Dataset Dataset<Row> df = spark.read().format("csv") .option("header", "true") .load("path/to/file.csv"); // 将Dataset转换为类型安全的Java对象 Encoder<MyObject> myObjectEncoder = Encoders.bean(MyObject.class); Dataset<MyObject> myObjects = df.as(myObjectEncoder); // 进行复杂的操作 Dataset<MyObject> filtered = myObjects.filter(myObject -> myObject.getAge() > 18); // 将结果保存到文件中 filtered.write().format("csv").save("path/to/output"); ``` 在这个示例中,我们首先读取一个CSV文件,并将其转换为DataFrame。然后,我们使用Encoder将DataFrame转换为类型安全的Java对象。接着,我们进行过滤操作,只选择年龄大于18岁的对象,并将结果保存到文件中。 希望这个简单的示例可以帮助你了解如何使用Dataset进行数据操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值