一、数据采集业务
-》数据源
-》网站:用户访问日志、用户行为日志、服务器运行日志
-》业务:订单、用户、商品信息
-》SDK
-》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器
-》针对不同的客户端有不同的SDK
-》手机APP
-》网站:js
-》后台:java
-》用户的客户端或者行为的不同,导致需要不同的SDK进行处理,收集不同的数据
-》收集数据的 原则
-》尽量收集多的数据
-》常见的字段
-》客户端的ip
-》用户的id
-》URL
-》客户端的时间
-》客户端
-》refere_url
……
-》网站日志服务器:nginx
-》日志文件
-》自定义收集的日志内容及格式
-》nginx默认将所有的日志全部保存为一个文件
-》数据收集方案
-》java:小型业务
-》可以根据业务需求,实现各种自定的业务,灵活性好
-》有一定的性能局限性
-》flume:分布式工具,适合业务较大的数据采集
-》架构:
-》source:读取数据源,将数据源转化为字节流,发送给channel
exec、spooling dir、taildir
-》channel:负责临时存储数据
mem、file
-》sink:从channel中取数据,将数据发送给目标地
hdfs
-》高级特性
-》sinks:
-》数据源
-》网站:用户访问日志、用户行为日志、服务器运行日志
-》业务:订单、用户、商品信息
-》SDK
-》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器
-》针对不同的客户端有不同的SDK
-》手机APP
-》网站:js
-》后台:java
-》用户的客户端或者行为的不同,导致需要不同的SDK进行处理,收集不同的数据
-》收集数据的 原则
-》尽量收集多的数据
-》常见的字段
-》客户端的ip
-》用户的id
-》URL
-》客户端的时间
-》客户端
-》refere_url
……
-》网站日志服务器:nginx
-》日志文件
-》自定义收集的日志内容及格式
-》nginx默认将所有的日志全部保存为一个文件
-》数据收集方案
-》java:小型业务
-》可以根据业务需求,实现各种自定的业务,灵活性好
-》有一定的性能局限性
-》flume:分布式工具,适合业务较大的数据采集
-》架构:
-》source:读取数据源,将数据源转化为字节流,发送给channel
exec、spooling dir、taildir
-》channel:负责临时存储数据
mem、file
-》sink:从channel中取数据,将数据发送给目标地
hdfs
-》高级特性
-》sinks: