1,从各个主页通过js发送用户信息到nginx服务器
2,通过shell脚本将nginx中内容发送到hadoop集群
3,通过自定义protobuf模块工具将加密内容解析
4,解析后用pig或者hive加载自定义字段
5,用pigLatin或者hiveSql操作加载的数据得到统计信息
6,sqoop导入mysql,进而界面展示
自定义字段通过商谈实现,藉此得到精准营销的初步信息
那么就是有两种方式收集数据,通过到nginx集群,直接flume到hadoop集群,前者是定制消息,后者有个格式不知道。
后续添加有用信息。