网络数据格式
数据不仅仅是数据工程分析的对象,更是数据工程不同部分之间衔接的接口,数据读写是数据分析的基础。而网络通信说到底也是数据的交流过程。
按照数据的使用方式,我们可以将数据进一部分为通用数据与非通用数据,前者不限于特定的编程工具,在程序世界中扮演者“通用货币”的角色,是可以跨语言跨工具使用的标准数据,例如txt,csv,xml,json, hdf5等;后者则是特定语言使用的数据,在一定程度上也可以跨语言使用,但是跨语言使用时经常伴随有信息的错误与损失,常见的非通用数据有dta(Stata),xls(MS Excel),spv(SPSS), RData(R)等。RStudio在使用非通用数据时,可以从Import Dataset
下来菜单中选择相应的选项。在网络通信中,通用数据是主角。
CSV
CSV(Comma-Separated Values)逗号分隔值文本数据,以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符(tsv)。CSV的优势在于可以用MS Excel直接编辑,读写简便,跨平台使用方便,其最大劣势为以表结构为基础,灵活性较差,尤其是数据结构比较复杂时,CSV的效率会变得很差。
XML
XML(Extensible Markup Language