有幸被邀请到虎门港作了一个题为“大数据正在改变企业信息化”的专题讲座,感谢安排,准备不周请包涵谅解。
其实,我和发思特软件从2009年起开始从事大数据的研究和开发工作,主要是面向海量短文本投诉数据的挖掘和分析工作,10086的月投诉量巨大,数据来源和类型也很多,要求处理的速度很快,而且存在大量重复的繁杂的数据,价值密度是相当低的,我们是在沙里淘金,面对这些巨大繁杂的数据,我们需要研究的是如何快速准确地将这些数据分类,如何自动地发现热点问题?如何对每一个时间阶段的投诉信息进行自动摘要?在经过了四、五年的研究和开发,我们在自动分类和自动发现热点问题方面取得了巨大的突破,但自动摘要仍然无法令人满意,如果有朋友在这方面有成果,希望可以合作。
以上的这段话已经将大数据的概念、特征、主要应用场景以及目前研究难题已呈现出来了。也难怪,这些年信息技术的发展过于迅猛,感觉我们都在追随国外的步伐,没有自已的理论和观点,都只是在学习和盲目地宣传,互联网、物联网、移动互联网、云计算、大数据等层出不穷,我们还在一头雾水时新的技术又出来了ÿ