HuggingFace 使用小记

datasets

  1. 读取数据(load_dataset)
    1. load_dataset("json", data_files=data_files, field="xxx_field")
      • 数据文件类型:jsontextcsvpandas
      • 数据文件列表:
      from datasets import load_dataset
      
      data_files = {"train": "xxx.train.json", "test": "xxx.test.json"}
      my_dataset = load_dataset("json", data_files=data_files, field="xxx_field")
      
  2. 处理数据(datasets对象)
    1. shuffle
      examples = my_dataset["train"].shuffle(seed=42)
      examples["label"][:10]
      
    2. select
      examples = my_dataset["train"].select([0, 10, 20, 30, 40, 50])
      examples = my_dataset["train"].shuffle(seed=42).select([0, 10, 20, 30, 40, 50])
      
    3. unique
      unique_data = my_dataset["train"].unique("xxx_field")
      unique_data_nums = len(unique_data)
      
    4. rename_column
      my_dataset = my_dataset.rename_column(
      	original_column_name=getattr(my_dataset, "xxx_field"), new_column_name="yyy_field"
      )
      
  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Protobuf是一种高效的序列化协议,可以用于数据交换和数据存储。它的主要优势是大小小,速度快,可扩展性强。下面是使用Protobuf的一些小记: 1. 定义消息格式 首先,需要定义消息格式,以便Protobuf可以将数据序列化和反序列化。消息格式定义在.proto文件中,使用protobuf语言编写。例如,下面是一个简单的消息格式定义: ``` syntax = "proto3"; message Person { string name = 1; int32 age = 2; } ``` 这个消息格式定义了一个名为Person的消息,包含两个字段:name和age。 2. 生成代码 一旦消息格式定义好,就可以使用Protobuf编译器生成代码。编译器将根据消息格式定义生成相应的代码,包括消息类、序列化和反序列化方法等。可以使用以下命令生成代码: ``` protoc --java_out=. message.proto ``` 这将生成一个名为message.pb.java的Java类,该类包含Person消息的定义以及相关方法。 3. 序列化和反序列化 一旦生成了代码,就可以使用Protobuf序列化和反序列化数据。例如,下面是一个示例代码,将一个Person对象序列化为字节数组,并将其反序列化为另一个Person对象: ``` Person person = Person.newBuilder() .setName("Alice") .setAge(25) .build(); byte[] bytes = person.toByteArray(); Person deserializedPerson = Person.parseFrom(bytes); ``` 这个示例代码创建了一个Person对象,将其序列化为字节数组,然后将其反序列化为另一个Person对象。在这个过程中,Protobuf使用生成的代码执行序列化和反序列化操作。 以上是使用Protobuf的一些基本步骤和注意事项,希望对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值