《Python数据分析与挖掘实战》张良均，第一章学习笔记

最新推荐文章于 2021-02-05 14:12:53 发布

fy_1852003327

最新推荐文章于 2021-02-05 14:12:53 发布

阅读量914

点赞数

分类专栏：数据分析与挖掘文章标签：大数据

本文链接：https://blog.csdn.net/fy_1852003327/article/details/106289242

版权

数据分析与挖掘专栏收录该内容

11 篇文章 16 订阅

订阅专栏

第一章从餐饮行业来引出数据挖掘

【有问题或错误，请私信我将及时改正；借鉴文章标明出处，谢谢】

刚开始讲到了T餐饮企业的管理系统(5个管理系统)，因为多方面管理系统加强了此企业的信息化管理，提高了工作效率，但是积累的这些大量的历史数据中提取有用的数据需要大量的精力，人力，更重要的是时间上的浪费，在企业的竞争中优胜劣汰，物竞天择，导致最终企业倒闭。

那能不能让电脑来解决数据，挖掘有用的数据最后自动分析，从而从数据上提出方案减低企业运营成本、增加盈利能力、实现精准营销、策划促销活动等。从而引出数据挖掘，那企业得到的数据存放问题呢，从而又引出了"分布式数据库"。那数据存放地有了，不光要弃糟粕，还要吸取精华，实现企业的多样化资源(例如菜品)，网络资源上相关的爬取，这就引出了“爬虫技术”。进一步丰富就有了：数据采集(爬虫技术)—>数据预处理(预处理技术)—>数据存储(分布式数据库)—>数据分析挖掘(数据分析与挖掘)—>数据可视化(可视化技术)，大数据就这样运用于了生活中，大数据的时代。

从餐饮企业经营过程中存在的困惑，引出了数据挖掘的基本任务、建模过程及常用工具，下面进行简单阐述。

1.数据挖掘的基本任务：
分类与预测、聚类分析、关联规则、时序模型、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力

2.数据挖掘建模的基本过程：
定义挖掘目标、数据采样、数据探索、数据预处理、挖掘建模、模型评价

1>怎样定义挖掘目标：
先分析应用领域，包括应用中的各种知识和应用目标，了解相关的领域情况，熟悉背景知识，弄清用户需求，决定好到底想干什么

2>数据取样中学习如何进行数据取样？衡量数据取样的标准是什么？
①一是相关性，二是可靠性，三是有效性，而不是动用全部企业数据
②衡量数据取量的标准是：资料完整无缺，各类指标项齐全；数据准确无误，反映的都是正常(而不是异常)状态下的水平
③数据取样的具体方式有：随机抽样、等距抽样、分层抽样、从起始顺序抽样、分类抽样

3>数据探索的含义：
拿到一个样本数据集后，看他是否达到我们原来设想的要求；样本中有没有什么明显的规律和趋势；有没有出现从未设想过的数据状态；属性之间有什么相关性；他们可区分成怎样一些类别，这就是数据探索的内容

数据探索的具体方法有：
异常值分析、缺失值分析、相关分析和周期性分析等

4>数据预处理主要包括：
数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据归约等

为什么必须进行数据预处理？
因为采集的数据中常常包含有噪声、不完整、甚至不一致的数据，改善数据质量以此最终达到完善最终数据挖掘结果的目的。

5>挖掘建模主要包括基于关联规则算法的动态菜品智能推荐、基于聚类算法的餐饮客户价值分析、基于分类与预测算法的菜品销售预测、基于整体优化的新店选址。
以菜品销量预测为例，模型构建是对菜品历史销量，是综合考虑了节假日、气候和竞争对手等采样数据轨迹的概括，他反应的是采样数据内部结构的一般特征，并与该采样数据的具体结构基本吻合。模型具体化就是菜品销量预测公式，公式可以产生与观察值有相似结构的输出，这就是预测值

6>模型评价就是建模过程中会得到一系列的分析结果，从模型中自动找出一个最好的模型，另外就是要根据业务对模型进行解释和应用

3.数据挖掘建模的工具：

1>Python具备强大的科学及工程计算能力，它具有以矩阵计算为基础的强大数学计算能力和分析功能，而且还具有丰富的可视化图形表现功能和方便的程序设计能力。Python并不提供一个专门的数据挖掘环境，但是它提供非常多的相关算法的实现函数，是学习和开发数据挖掘算法的很好选择。

2>Enterprise Mincr(EM)是SAS推出的一个集成的数据挖掘系统，允许使用和比较不同的技术。同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间 (workspace)中按照一定的顺序添加各种可以实现不同功能的节点，然后对不同节点进行相应的设置，最后运行整个工作流程(workflow),便可以得到相应的结果。

3>IBM SPSS Modeler，它封装最先进的统计学和数据挖掘技术来获得预测知识，并将相应的决策方案部署到现有的业务系统和业务过程中，从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面，自动化的数据准备和成熟的预测分析模切，结合商业技术外以快速建立预测性模型。

4>SQL Server 中集成广数挖掘组件—Analysis Servers,借助 SQL Server的数据库管理功能，可以无缝地集成在SQL Server数据库中。在SQL Server 2008中提供了决策树货法、聚类分析W法、Naive Bayes 法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是，预测建模的实现是基于SQL Server平台的，平台移植性相对较差。

5>WEKA ( Waikato Environment for Knowledge Analysis)，高级用户可以通过Java编程和命令行来调用其分析组件。WBKA为普通用户提供了图形化界面，称为WEKA Knowledge Flow Environment和WEKA Explorer, 可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。

6>ICNIME 是基于Java开发的，可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能节点组成，每个节点符输入/输出端口，用于接收数据或模型，导出结果。

7>RapidMiner 也称为 YALE，提供图形化界面，采用类似Windows资源管理器中的树状结构来组织分析组件，树上每个节点表示不同的运算符（operator)。YALE中提供了大量的运算符，包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的，基于Weka来构造，可以调用Weka中的各种分析组件。RapidMiner拓展的套件Radoop，可以和Hadoop集成起来，在Hadoop集群上运行任务。

8>TipDM (顶尖数据挖掘平台)使用Java语言开发，能从各种数据源获取数据，建立多种数椐挖掘模型。TipDM目前已集成数十种预测算法和分析技术，基本覆盖了国外主流挖掘系统支持的算法。TipDM支持数据挖掘流程所需的主要过程：数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理)；预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测)聚类分析、关联规则挖掘等一系列功能。

在今后的几章节中我们重点学习Python数据分析工具、数据探索、数据预处理、挖掘建模这几个板块

从第一章中总结，数据挖掘作用就是，能够从数据中自动或半自动地发现有用数据，相关知识和解决方案，应用到生活极大的提高企业的决策水平和竞争能力，帮助企业提取数据中蕴含的商业价值，减少人力，物力，财力等等没有必要的开支。

【有问题或错误，请私信我将及时改正；借鉴文章标明出处，谢谢】

fy_1852003327

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Python数据分析与挖掘实战》张良均，第一章学习笔记

第一章从餐饮行业来引出数据挖掘【有问题或错误，请私信我将及时改正；借鉴文章标明出处，谢谢】刚开始讲到了T餐饮企业的管理系统(5个管理系统)，因为多方面管理系统加强了此企业的信息化管理，提高了工作效率，但是积累的这些大量的历史数据中提取有用的数据需要大量的精力，人力，更重要的是时间上的浪费，在企业的竞争中优胜劣汰，物竞天择，导致最终企业倒闭。那能不能让电脑来解决数据，挖掘有用的数据最后自动分析，从而从数据上提出方案减低企业运营成本、增加盈利能力、实现精准营销、策划促销活动等。从而引出数据挖掘，那企
复制链接

扫一扫