1.大数据的特征:
数据量大(Volume),各种类型多样(Variety),价值密度低(Value),高速(Velocity)
2.结构化数据:
可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。但结构化数据的扩展性不好。
非结构化数据:非结构化数据本质上是结构化数据之外的一切数据。简单的说,非结构化数据就是字段可变的的数据。对非结构化数据,一般以二进制的形式直接整体进行存储。例:文本文件,电子邮件,微信,office文档。
3.Hadoop生态圈:
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。
Hadoop的核心组件是HDFS,MapReduce。
4.Hadoop hdfs架构:
HDFS架构:主从架构。NameNode是主节,DataNode是从节点。
5.hdfs读的流程:
1.HDFS客户端远程调用Namenode,查询元数据信息,获得这个文件的数据块位置列表,返回封装DFSIntputStream的HdfsDataInputStream输入流对象。
2.客户端选择一台可用Datanode服务器,请求建立输入流。
3.Datanode向输入流中写原始数据和以packet为单位的checksum。
4.客户端接收数据。如遇到异常,跳转至步骤2,直到数据全部读出,而后客户端关闭输入流。