一、问题描述:
1)随着各类数据、日志的迅速增长,无论在互联网、医学还是工业领域,普通的计算机存储空间不易扩展,数据易丢失等问题也越来越凸显,这也正是目前大数据技术在互联网、医学、工业方面应用越来越多的原因。本人硕士生一枚,针对研究课题也遇到了类似的问题:所用的采集传感器灵敏度每对每秒可采集1000万个事件,那么数十对传感器经过长时间的采集,单次实验获取的数量非常大,常常达到上百G,针对传统的借助算法将三维空间数据近似到二维空间,尽管降低了数据量,但是丢失了重要三维信息,同时数据的后期处理重建过程对单台计算机的要求过高。
2)导师提出测试探测系统重复性好坏的需求,经过资料搜集与自学,考虑了基于大数据技术的方案,供各位读者参考学习:通过计算多次相同实验条件下,获取到的三维响应线(理解成两个传感器的连线)在每个位置的概率分布(同样位置下的响应线计数),来判断探测系统的重复性是否良好,若重复性能好,这样即使传感器出现误差,能够通过修正实现精确测量。
二、涉及的技术:
maven工具,java(基础和GUI开发),
hadoop生态系统(HDFS,Mapreduce,Yarn,Hive),