大数据分析处理

最新推荐文章于 2022-06-13 11:00:18 发布

撸码的xiao摩羯

最新推荐文章于 2022-06-13 11:00:18 发布

阅读量603

点赞数

分类专栏：数据分析文章标签： big data r语言数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1234556667/article/details/120272419

版权

数据分析专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、概述

概念

有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。针对的是海量的多样化数据集合。

过程

需求分析--数据收集--数据分析--分析报告、提炼价值

产生与发展

互联网+物联网产生海量数据

商业智能的发展

从传统转换为增强型功能转变、单独的商业智能转换为嵌入式商业智能

大数据分析技术的发展

无线互联网技术、数据抓取、并行处理、高容量存储、数据可视化、人工智能

应用场景

电商、医疗、金融
交通物流、社交媒体、客户、营销分析、网络安全分析

二、分析流程

基本流程

数据采集（实时数据采集：Flume、Fluented、DataHub、、、、离线数据采集ETL：Sqoop、DataX）

数据存储与管理（关系型数据库：关系数据库、NoSQL数据库、分布式文件系统数据仓库建模源数据库管理数据安全管理）

数据计算（多维统计分析大规模并行计算框架数据挖掘、机器学习、分布式实时计算、交互式分析）

数据应用（数据报表可视化展现数据服务数据分享）

数据采集

WEB端（网络爬虫）APP端（无线客户端采集SDK/埋点页面浏览事件控件点事件）传感器（物联网）数据库（结构化数据客户交易）第三方（第三方数据合作方提供政府公布宏观数据对接公安系统的身份核验）

离线数据采集ETL

ETL：Extract Transform Loading 抽取转换转载

ETL工具：PowerCenter DataStage Kettle 阿里云DataX

预处理技术

数据清洗：清洗干净脏数据（不在指定范围内格式非法没有实际意义）

数据集成：合并整理来自不同数据源的数据

数据规约：在尽可能保持数据原貌的前提下，最大限度精简数据量

数据变换：对数据进行变换处理，使其更适合当前任务或者算法的需要（数据规范化数据值离散化对数据进行汇总与聚集）

数据存储与管理

分布式文件系统-HDFS

Hadoop是一个分布式基础架构可以开发分布式程序重复利用集群的威力高速运算和存储Hadoop实现了一个分布式文件系统

HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。

HDFS集群包含：一个主节点（NameNode）多个丛属节点（DataNodes）多个客户端访问

分布式列存数据库--HBase：处理非常庞大的表，超过10亿行、数百万亿列。存储海量结构化、半结构化数据

内存数据库--Redis

Redis是一个开源的可基于内存亦可持久化的日志型、键值内存数据库。也可作为一个消息的发布定阅。

消息分发和存储--Kafka

分布式发布-订阅消息系统。主要处理流式数据

非结构化数据存储-OSS

云存储、海量、安全、低成本、高可靠、可存储任意类型

数据分析与挖掘

分析方法

描述型：发生了什么？

诊断型分析：为什么会发生：

预测性分析：可能发生什么：

指令型分析：下一步怎么做？

挖掘技术

常用算法：分类聚类关联规则时间序列

数据可视化

方法：统计图表、2D3D区域、时态、多维、分层、网络

常见可视化图表：线图、柱图、饼图、散点图、雷达图、漏斗图、旋风漏斗、树图、矩阵树图、来源去向、指标看板、仪表盘、地图、极坐标图、词云

大数据分析常用技术

统计工具

Excel spss SAS

编程语言

R语言（适合统计研究背景）

Python

JAVA （原型制作大型系统）

Scala语言：Spark平台常用（大规模机器学习构建高层次算法的工具）

Tableau (数据可视化工具)

QlikView

Microsoft Power BI

Python 如何处理大数据

Python程序设计语言

是一种结合了解释性、编译性、互动性、和面向对象的高层次计算机程序语言

起源：1991

设计哲学：优雅、明确、简洁

宣言：人生苦短，我学Python!

Python之父：

如何与大数据结合

Python是开源汇编语言，支持多平台
提供对文本、图像和多媒体数据的高级支持，因为他支持非结构化数据和非常规数据的处理。

Python常用库

numpy 开源的数值计算扩展，存储和处理大型矩阵
pandas 提供高效地操作大型数据集所需的工具
sklearn 免费软件机器学习库有分类回归聚类算法支持向量机随机森林梯度提升 K均值
matplotlib 2D绘图软件库硬拷贝格式和跨平台的交互式环境生成版质量级别的图形

撸码的xiao摩羯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据分析处理

一、概述概念有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。针对的是海量的多样化数据集合。过程需求分析--数据收集--数据分析--分析报告、提炼价值产生与发展互联网+物联网产生海量数据商业智能的发展从传统转换为增强型功能转变、单独的商业智能转换为嵌入式商业智能大数据分析技术的发展无线互联网技术、数据抓取、并行处理、高容量存储、数据可视化、人工智能应用场景电商、医疗、金融交通物流、社交媒体、客户、营销分析、网络安全分析二、分析流程..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

撸码的xiao摩羯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。