大数据应用开发--概述

1. 大数据应用开发简介

1.1 数据分析的概念

数据分析就是利用数学、统计学理论相结合科学统计分析方法对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。
数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后,将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。

1.2 数据可视化的概念

数据可视化旨在借助图形化的手段,将一组数据以图形的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

2. 常用模块

2.1 Numpy

Numpy模块是一个用于实现科学计算的库,尤其是在实现数据分析时,该模块是一个必不可少的基础库。
Numpy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。

2.2 Pandas

Pandas是一个开源库,主要为Python提供高性能、易于使用的数据结构和数据分析工具。
Pandas的数据结构中有两个核心,分别是Series与DataFrame。

2.3 matplotlib

Matplotlib是一个Python绘图库,它不仅可以绘制2D图表,还可以绘制3D图表。
中间的“plot”表示绘图,而结尾的“lib”表示它是一个集合。

2.4 scikit-learn

scikit-learn模块是一个简单有效的数据挖掘和数据分析工具
scikit-learn模块是基于numpy、scipy基础上的模块。

3. 开发工具与环境

3.1 什么是jupyter?

Jupyter(全称Jupyter Notebook)是一个交互式编辑器,它支持运行40多种编程语言,便于创建和共享文档。Jupyter本质上是一个Web应用程序,与其他编辑器相比,它具有小巧灵活、支持实时代码、方便图表展示等优点。

3.2 安装与使用Jupyter

3.2.1 安装jupyter工具

使用pip工具可以方便地安装Jupyter。pip工具是Python的包管理工具,Python 3.4以上的解释器自带了pip管理工具。

安装命令如下:

pip install jupyter notebook

在这里插入图片描述
下面是已经安装好的
在这里插入图片描述
输出如下信息表明jupyter工具安装成功

Installing collected packages: jupyter
Successfully installed jupyter-1.0.0

3.2.2 使用jupyter

以E:\python目录为例,在该目录下打开命令行窗口,输入Jupyter的启动命令。
在这里插入图片描述
执行Jupyter的启动命令后,会在默认的浏览器中呈现Jupyter主界面。
在这里插入图片描述
单击文件列表右上方的“New”,在弹出的下拉列表中选择“Python 3”,直接创建一个Python文件。
在这里插入图片描述
创建Python文件后,Jupyter会在浏览器中打开一个新的页面。
在这里插入图片描述
在Jupyter文件页面的“In [ ]:”后的文本框中输入如下代码:

print('hello world!')

单击文本框上方的“运行(shift+enter)”按钮,程序执行结果将会在文本框下方直接输出,具体如下图所示。
在这里插入图片描述
使用快捷键Ctrl+S(或修改文件页面的文件名)可以将当前页面中编辑的代码和代码的运行结果都保存在以“.ipynb”为后缀名的文件中,保存后的文件将会出现在Jupyter主界面的文件列表中,单击列表中的文件,可在浏览器中打开并继续使用文件。

3.2.3 安装数据库处理库

利用Python内置的pip工具可以非常方便地安装Python第三方库,安装命令的格式如下:

pip install 模块/库名
pip install numpy pandas

在Jupyter中导入numpy、pandas库,若运行后没有出现任何报错信息,说明库安装成功。如下:

Installing collected packages: numpy, pandas
Successfully installed numpy-1.19.0 pandas-1.1.0
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据应用场景之-大数据预测 大数据预测概述 l大数据预测则是基于大数据和预测模型去预测未来某件事情的概率,让分析从"面向 已经发生的过去"转向"面向即将发生的未来"是大数据与传统数据分析的最大不同 l大数据预测的优势体现在它把一个非常困难的预测问题,转化为一个相对简单的描述 问题,而这是传统小数据集根本无法企及的 l从预测的角度看,大数据预测所得出的结果不仅仅得到处理现实业务简单、客观的结 论,更能用于帮助企业经营决策,收集起来的资料还可以被规划,引导开发更大的消 费力量 l数据分析的根本目的就是要洞察数据背后的规律,企业可以基于数据分析的结果制订 决策、并采取相应措施和行动,进而达成想要的结果 l数据分析的四个层次 描述性分析(Descriptive Analysis) 诊断性分析(Diagnostic Analysis) 预测性分析(Predictive Analysis) 处方性分析(Prescriptive Analysis) l描述性分析主要是对已经发生的事实用数据做出准确的描述 l比如某企业本月订单签约额比上月增加100万,至1100万,但是订单履约率从上月的 98%下降到了95%,库存周转率从上月的0.8下降到了0.7 l通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据 的核心 l比如经过分析,发现订单履约率下降的原因是成品生产不出来,无法完成交付,而成 品生成不出来的原因则是部分原材料的供应商未能按时送货,导致原材料不齐套,无 法开始生产 l预测型分析对事件未来发生的可能性,预测一个可量化的值,或者是预估事情发生的 时间点 l比如通过建模可以预测本月该供应商会使我们的订单履约率下降2% l处方性分析基于对"发生了什么"、"为什么会发生"和"可能发生什么"的分析,来帮助 用户决定应该采取什么措施 l通常情况下,是在前面的所有方法都完成之后,最后需要完成的分析方法 l比如,供应商A会导致本月订单履约率下降,可能采取的措施就是把A换掉,但是现在 有B和C两个供应商供选择,通过分析和计算得出:选用供应商B会比选C的订单履约率 高1%,因此建议选择供应商B l传统分析方法只能完成描述性和诊断性分析 l大数据分析方法使用大量多样化和可变数据来实现预测,在充满不确定性的环境下, 能够帮助企业做出更好的决定 l大数据预测是大数据在很多领域的重要应用 描述性数据分析 l描述性分析对采集到的大量数据进行初步的整理和归纳,对调查总体所有变量的有关 数据进行统计性描述,主要包括 数据的频数分析 数据的集中趋势分析 数据的离散程度分析 数据的分布 统计图形绘制 数据的集中趋势分析是用来反映数据的一般水平 l平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算 术平均值、加权算术平均值、调和平均值和几何平均值 l中位数:是反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序 排列,位于中央的数据值就是中位数 l众数:是指在数据中发生频率最高的数据值 l如果各个数据之间的差异程度较小,用平均值就有较好的代表性 l如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较 好的代表性 ----------------------- 大数据应用场景之-大数据预测全文共8页,当前为第1页。 大数据应用场景之-大数据预测全文共8页,当前为第2页。 大数据应用场景之-大数据预测全文共8页,当前为第3页。 大数据应用场景之-大数据预测全文共8页,当前为第4页。 大数据应用场景之-大数据预测全文共8页,当前为第5页。 大数据应用场景之-大数据预测全文共8页,当前为第6页。 大数据应用场景之-大数据预测全文共8页,当前为第7页。 大数据应用场景之-大数据预测全文共8页,当前为第8页。 ----------------------- 1

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值