读取JSON文件(后缀为.json)
这个相对比较简单,R或者Java都可以轻松处理,下两个json相关的包就可以了
以下用 R 举例
install.packages("rjson")
install.packages("jsonlite")
library(rjson)
library(jsonlite)
data = jsonlite::stream_in(file("jsondatafile1.json"),pagesize = 100)
str(data)
head(data)
读取带有JSON数据/字段的csv文件
带有JSON数据/字段的csv文件,即以csv格式储存,但一部分列/字段是普通的数据格式,另一部分列/字段是JSON数据格式。
文件示例
time以及event列都是常见的数据格式,但 params 列是JSON格式
这种文件处理起来相对麻烦,因为是csv文件,所以不能直接用读取json文件的函数或者包,只能先当作csv文件读取然后再单独处理相关json字段
但可以放心的是,实际上处理耗时跟使用Java 直接处理json文件差不多,因为不管是用什么语言处理,都需要我们打开文件/范例,去一个一个字段了解这个字段里面有哪些value,分别叫什么,这样我们才能进行数据处理。所以不用担心效率问题,也不用费时费劲去找Java的方法(当然,这是建立在不熟悉Java的情况下,如果会Java的话会比较简单)
语言运行速度这个问题后面我会说
JSON字段示例
假设以下是 user 列的数据示范
{"_idfa":"","_idfv_end":"",“ip_addr_id”:“0”,“open_udid”:“2askjchajscuashcnjf”,“uid”:“asjchajschashcks”,“user_is_login”:“0”,“web_id”:“0”}
下面是处理上述JSON字段的方法
## 先把 user 列的原始数据单独取出来
user_raw = as.list(raw_data$user)
class(user_raw