大数据初认识
机器学习和数据挖掘的区别
机器学习是以探索机器学习人的学习机制为目标的
数据挖掘是试图从海量数据中找出有用的知识。
机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。
大数据处理系统的分类
就目前而言,主要的大数据处理系统有批处理系统、流计算系统、迭代计算系统、图计算系统和查询分析计算系统。
批处理系统其代表产品是MapReduce、Spark、Hadoop
流计算系统其代表产品是Storm
迭代计算系统其代表产品是Hadoop、、Twister、MapReduce、Spark(其中Hadoop基于磁盘,Spark基于内存)
图计算系统其代表产品是GraphX
查询分析计算系统其代表产品是Hive、HBase(分布式数据库)
大数据处理的基本流程
首先是数据收集,源数据其中有RDBMS(结构化数据)、HTML(半结构化数据)、文档数据(非结构化数据),然后将数据进行“清洗”,数据抽取和数据集成,也就是将数据处理一下,使得数据明朗,再将数据通过机器学习和数据挖掘数据统计技术去分析,数据加工处理好了,就要可视化展现出来,也就是数据解释,最后将其发送至用户。