背景
最近遇到一个问题,朋友需要使用es去处理一些基因数据,其特点和其他的数据不一样,对象的个数很少,但每个对象下面有很多field。并且field的值是动态添加的,用列式存储数据是最为方便的。
方便起见,画了个示意图,file1是行式存储,即我们常见的csv,第一行是标题,后面每一行就是一条记录。
而file2,则是列式存储,第一列式header,后面每一列都是一条记录
要使用logstash或者其他任何工具处理这个文本都会带来不小的麻烦。因为,对于文件的处理,我们是按行写入的,通过\n等换行符进行行的区分(计算机语言里面没有换列符的说法);同理,在读取的时候,我们顺序从文件开头读取,也是每检测到一个换行符认为是一行。
我们比较读取第一行和第一列的区别,如果我们要读取文件的第一行,只需要遇到第一个换行符就可以结束了,而要读取第一列,则非得读完所有的行才行,基本上是读完整个文件。
但这样也有一个好处,就是为每条记录增加一个属性时,只需要增加一行即可,而行式存储则无法做到。
需求
现在,假设我们遇到这样的一个csv文件:
它有几个特点:
- 标签在第一列,标签的值在第2列~第N列
- 有些标签只有一个值,有些标签有N个值
- 以
,
作为分隔符
我们希望logstash将该csv解释为如下数据,并存储到ES中:
即:
- 第一列作为field
- 每一列的标签值作为一个doc
- 只有一列的标签值,复制到每一列当中
解决思路
在上文已经提到了,如果我们要按列来生成记录(doc)存储到elasitcsearch里面,必须一次性读取整个文件。这样会带来一个问题,即文件有新增的时候,即为每条记录增加一个属性时,我们需要update之前生成的所有doc,这个问题可以解决,但我们先不在这里讨论。总之,要处理列式数据,我们不可能一行一行的读数据,因为logstash是流式处理,来一条数据会马上开始处理,处理之后会直接放到es,然后开始下一个数据的处理,而不会等所有数据来了之后再合并处理。而且根据worker数量的设置,该流程是并发的,并没有时序保证。因此,必须一次读完整个文件。我们可以使用filebeat,或者直接使用file plugin:
input{
file {
path => "/tmp/test.csv"
start_position => "beginning"
sincedb_path => "/dev/null"
ignore_older => 0
close_older => 0
codec => multiline {
pattern => "^\r\n"
negate => "false"
what => "previous"
}
}
}
注意,每个版本的logstash的参数不一样,而且最后一行需要有一个空行
当我们读完整个文件,该文件在logstash里面就是一个完整的event,此时,我们首先要提取第一列来作为field
。这个可以采用kv插件。
文件读进来,在内存中是如下模型:
#Platform,V40_BGISEQXXX\r\n
#DateTime,2019-06-15 14:21:44\r\n
fovname,C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009\r\n
...
我们首先要把第一个,
转为其他符号,比如=
,来方便kv插件操作。mutate
插件的gsub
可以帮我们做到:
filter {
mutate {
gsub => ["message", "(^.*?),","\1="]
}
}
然后使用kv:
kv {
field_split => "\r\n"
remove_field => ["message"]
}
注意,处理完之后我们就可以丢弃message
了。此时logstash的event应该包含为:
{
"#Platform": "V40_BGISEQXXX",
"#DateTime": "2019-06-15 14:21:44",
"fovname": “C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009”,
...
}
接下来,我们需要将这个event按列拆分成多个event,然后每个event输出为一个doc到elasticsearch。具体可以参考split插件的做法,但这里必须使用ruby插件自己实现逻辑,这里给出参考:
conf:
ruby {
path => "/Users/Applications/logstash-