Big data

最新推荐文章于 2024-08-03 21:06:26 发布

干啥鸭

最新推荐文章于 2024-08-03 21:06:26 发布

阅读量669

点赞数

本文链接：https://blog.csdn.net/Drikay/article/details/81631316

版权

Big data

指无法在一定时间范围内用常规的软件工具进行捕捉，管理和处理的数据集合，是需要新处理模式才能具有更强的决策力，洞察发现力和流程优化能力的海量，高增长率和多样化的信息资产。

内存 DB NB BB YB ZB EB PB 1E=1024P 1P=1024G 1G=1024M 1M=1024K 1k=1024B 1B=1024Bit

特点：四个V

大量(Volume) 高速(Velocity) 多样性(Variety):数据分为结构化和非结构化，结构化是以数据库/文本为主的结构化数据，非结构化包括，网络日志，音频，视频，图片，地理位置信息等。

低价值密度(Value)：的高低与数据总量的大小成反比，如何快速的对有价值的数据“提纯”成为目前大数据背景下待解决的难题。

能干什么：O2O百度大数据+平台通过先进的线上和线下打通技术和客流分析能力，助力商家精细化运营，提升销量

零售行业：探索用户价值，提升个性化服务解决方案旅游：对人流量进行统计，商品推荐：买一种推荐访问过的商品类型，保险：海量数据挖掘及风险数据的预测，金融：多维度体现用户特征帮助推荐优质用户，房产：打造精准投策与营销，选出更合适的地，建造更合适的楼，卖给更合适的人，移动联通：根据用户年龄，职业，消费情况，分析统计那种套餐适合哪类人群，对市场人群精准定制，人工智能：基础是大数据。

分析首先，关注输入是什么，中间的业务逻辑，输出是什么

工作岗位：

部门组织结构：平台组：Hadoop,Flume,Kafka,Storm,spark等平台的搭建，集群性能监控，集群平台性能调优。

数据仓库组：ETL工程师-数据清洗，Hive工程师-数据分析，数据仓库建模。

数据挖掘组：算法工程师，推荐系统工程师，用户画像工程师。

报表开发组：javeee工程师，数据展示

技术生态体系：hbase非关系型数据库按列存储，关系型数据库按行，

数据来源层(数据库，文件日志，视频，ppt等)->数据传输层(Sqoop数据传递，Flume日志收集，Kafka消息队列)->数据存储层(Hbase非关系型数据库，HDFS文件存储)->资源管理层(YARE资源管理)->数据计算层(MapReduce离线计算，Spark Core内存计算，Storm实时计算)->任务调度层(Oozie任务调度，azkaban任务调度)->业务模型层(业务模型，数据可视化，业务应用)

Hadoop是一个分布式系统基础架构，主要解决海量数据的存储和海量数据的分析计算问题，Hadoop生态圈。

发展历史：由Doug Cutting开创的开源软件，Lucene，用java书写，实现了与Google类似的全文搜索引擎的架构，包括完整的查询引擎和搜索引擎2011年年底成为apache基金会的一个子项目，对于大数据的场景lucene面对与google同样的困难，学习和模仿google是解决这些问题的方法：微型版Nutch，Gooble是hadoop的思想之源（Google在大数据方面的三篇论文）GFS-HDFS，Map-Reduce MR，BigTable-Hbase，2003-2004年，Google公开了部分GFS和Mapreduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制，使Nutch性能飙升。

Hadoop优势：高可靠性，底层维护了多个数据副本(默认备份3个)所以即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

高效性：在MapReduce的思想下，Hadoop是并行工作的，然后再把数据总和处理，以加快任务处理速度

高容错性：能够自动将失败的任务重新分配

Hadoop组成：Hadoop1.x组成 1，HDFS数据存储：一个高可靠，高吞吐量的分布式的文件系统，负责存。

2，MapReduce资源调度+计算：一个分布式的资源调度和离线并行计算框架。这样的耦合性不好

3，Common辅助工具：支持其他模块的工具模块

Hadoop2.x组成 MapReduce计算：一个分布式的离线并行计算框架，Yarn(资源调度)：作业的调度与集群资源管理的框架，HDFS(数据存储)，common(辅助工具)：支持其他模块的工具模块，实现了高内聚底耦合。

HDFS概述：包含三个框架

1，NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性，以及每个文件的块列表和块所在的DataNode

2，DateNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。

3，Secondary NameNode(2n)：用来监控HDFS状态的辅助后台程序，每个一段时间获取HDFS元数据的快照