为何要用二进制文件读写

google发布word2vec以后,身为NLP一枚小菜鸡,必须也得试试它的效果。尝试把这套神经网络架构的word embedding代码搞清楚,于是详读代码了。
好久不碰C,加上本来就不熟C,所以在I/O上读的有点吃力

不过一开始就学到一点,二进制文件的读写
coding的时候基本上没有什么区别,加一个binary的mode就可以,但是为什么要用二进制读写文件

使用二进制文件的好处
  为什么要使用二进制文件。原因大概有三个:
  第一是二进制文件比较节约空间,这两者储存字符型数据时并没有差别。但是在储存数字,特别是实型数字时,二进制更节省空间,比如储存 Real*4 的数据:3.1415927,文本文件需要 9 个字节,分别储存:3 . 1 4 1 5 9 2 7 这 9 个 ASCII 值,而二进制文件只需要 4 个字节(DB 0F 49 40)
  第二个原因是,内存中参加计算的数据都是用二进制无格式储存起来的,因此,使用二进制储存到文件就更快捷。如果储存为文本文件,则需要一个转换的过程。在数据量很大的时候,两者就会有明显的速度差别了。
  第三,就是一些比较精确的数据,使用二进制储存不会造成有效位的丢失。

    考虑到大量的训练语料,以及每个词对应的向量是几百维的float类型,所以不论是存储空间,时间以精度上,都完爆文本文件,所以,二进制完胜
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值