原创文章,转载请注明原地址
http://blog.csdn.net/stevenprime
三.数据的分析
数据的分析其实分为实时与非实时,非实时的话比较好办,就是将收集收集到的日志用程序来跑就行,
java,python,hadoop都可以.
首先讲讲非实时数据分析(离线数据分析)
数据分析的方法其实看数据量的大小,现在很火的是hadoop分布式,但是如果数据量太小,其实根本没有必要使用hadoop,
而且就我个人的经验来看,hadoop还不够稳定,还不够成熟,用起来门槛也很高.
所以我强烈推荐如果数据量不是很大,千万级一下,使用脚本对数据进行分析吧.
当时刚进公司的时候,经理就建议我用脚本对日志进行分析,当时我理解的脚本是linux的shell脚本,
我想shell如何分析json数据呢?而且我们需要根据ip查出地域,当时我觉得用shell无法完成.
受限于当时的经验,没有用脚本分析日志,而且使用自己最熟悉的java程序来分析.
其实脚本有很多种啦,比如python,perl,都有json库,而且都有根据ip获取地区的代码,
网上随便搜一下就是很多.
第一版我使用的是java应用程序,一行行地读取日志,并且找了一段能根据ip查地域的代码,加上qqwry.dat纯真数据库,
就能根据ip获取所对应的地域了.这个程序运行了很久.
....................未完待续
原创文章,转载请注明原地址
http://blog.csdn.net/stevenprime