Huawei网赛学习笔记（一）

最新推荐文章于 2023-11-09 13:03:42 发布

佰无一用是书生

最新推荐文章于 2023-11-09 13:03:42 发布

阅读量171

点赞数

分类专栏： others

本文链接：https://blog.csdn.net/qq_44614524/article/details/88938015

版权

others 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

（一）网络技术
1.大数据基础：
#大数据tongchn通常用来形容一个公司创造的结构化和非结构化数据。
在这里插入图片描述

#数据分为结构化数据和非结构化数据；结构化数据是指可以存放在数据库里，可以用二维表结构来逻辑表达实现的数据；非结构化数据是指不方便用二维表结构来逻辑表达实现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频视频等。当代数据由25%的结构化数据和75%的非结构化数据构成。
在这里插入图片描述

#电信大数据

#第一种常见的应用场景是潜在离网用户维婉场景。例如，通过对潜在的离网用户进行数据分析，通过大数据实现用户管理、营销策略、营销实施和闭环反馈的拉通； 第二种常见的应用场景是综合网管分析平台、基站关联分析场景，例如：根据离网用户的位置轨迹，用户的业务行为等获得数据源，然后进行大数据分析，最后进行一系列的网络优化，用户行为分析等； 第三种是数据变现场景：户外数字媒体。非数字媒体价值评估场景，例如：通过大数据去分析人流量，车流量等相关信息根据所得的数据进行统一管理，获得相应的需求描述，得到一系列价值评估及营销策划。
#拥抱大数据时代
在这里插入图片描述

#大数据的基本特征
Volume：数量大（集中存储/计算已经无法处理巨大的数据量）
variety：种类和来源多样化（文本/图片/视频/文档等）
velocity：及时性要求高（海量数据的及时有效的分析）
value：价值密度低（大量的不相关信息的进行复杂深度分析，深挖价值）
#大数据的发展趋势：bussiness（大数据从技术驱动转变为商业驱动，大数据的商业模式创新爆发式增长） --> 开放合作生态，应用百花齐放；data science（数据科学从简单的统一分析到认知计算） -->分析智能化、知识化；technology（数据处理技术将会逐步标准化、云化）–>技术平台化、服务化（云化）。
#企业级大数据平台
在这里插入图片描述
#企业级大数据运营流程为：

hadoop具体的环境

划重点：运营商的混搭架构

在这里插入图片描述
#hadoop基础技术
传统的数据处理系统面临的问题

#大数据的数据特征：数据量大、格式复杂、响应速度要求高、数据价值密度低

#HDFS是基于谷歌的论文开发，具备其他分布式文件系统的相同特征，也具有以下特征，高容错、高吞吐量、大文件存储。
在这里插入图片描述
#YARN是hadoop中的资源管理系统，他是一个通用的资源管理模块，为各类应用程序进行资源管理和调度；优势为：资源利用率高、运维成本低、数据共享方便
#mapreduce基于谷歌的分布式计算框架设计开发，用一天大规模数据集（大于1TB）的并行运算。优势：容易编程、良好的扩展性、高容错性。
在这里插入图片描述
#HIVE提供数据提取、转换、加载功能，并可用类似于SQL的语法，对HDFS海量数据库中的数据进行查询统计等操作。

#HBase–hadoop database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。

#spark系统是分布式批处理系统和分析挖掘引擎，spark可以用来快速处理数据，并支持迭代计算，有效应对多步的数据处理逻辑。
#Hadoop用于离线统计分析：将海量的原始数据存储到HDFS中，定期离线做汇总统计，按分钟、手机号、地域、业务类型等维度导出到OLAP系统用于分析或报表。
#Hadoop用于详单查询：将海量的原始XDR，加载入库并转化为半结构化的格式，用于低时延查询。
#Hadoop用于云化ETL，移动数据业务和流量的爆炸式增长，带来了网络建设和维护费用的成倍增加。要求将海量数据存储在分布式存储且能够进行汇总等计算。
#数据挖掘应用面临的困难与挑战：使用门槛高、应用周期长、模式设计与优化缺乏辅助工具、缺乏实时分析能力。
#常见的挖掘算法
在这里插入图片描述