数据挖掘
你的破壁人呀
people come and go,my heart will go on
展开
-
cannot import name 'RandomizedLogisticRegression' from 'sklearn.linear_model'
问题描述:建立逻辑回归模型,导入RandomizedLogisticRegression时发生如下错误:根据提示,初步怀疑是装sklearn库时出现了某些不为人知的错误。尝试解决方法:重装scikit-learn库:pip uninstall scikit-learnpip install scikit-learnOK,完美解决。至于原因是啥,估计就是最初...原创 2019-08-19 16:30:00 · 12207 阅读 · 7 评论 -
数据分析与挖掘(十八)------挖掘建模之时序模式
一、引言就餐饮企业而言,经常会碰到如下问题:由于餐饮行业是生产和销售同时进行,因此销售预测对于餐饮企业十分必要。如何基于菜品历史销售数据,做好餐饮销售预测,以便减少菜品脱销现象和避免因备料不足而造成的生产延误,从而减少菜品生产等待时间,提供给客户更优质的服务,同时可以减少安全库存量,做到生产准时制,降低物流成本。餐饮销售预测可以看作是基于时间序列的短期数据预测,预测对象为具体菜品销售量...原创 2019-09-20 17:52:59 · 4336 阅读 · 1 评论 -
数据分析与挖掘(十七)------挖掘建模之关联规则
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如,一个超市的经理想要更多的了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包=>牛奶”,其中面包称为规则的前项而牛奶称为后项。通过对...原创 2019-09-20 17:38:54 · 2107 阅读 · 1 评论 -
数据分析与挖掘(十六)------挖掘建模之聚类分析算法评价及主要聚类分析算法
一、聚类分析算法评价聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越好。(1)purity评价法(2)RI评价法(3)F值评价法二、python主要聚类分析算法python的聚类相关的算法主要在Scikit-Learn中,p...原创 2019-09-20 17:30:26 · 613 阅读 · 1 评论 -
数据分析与挖掘(十五)------挖掘建模之K-Means聚类算法
K-Means算法是经典的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。1.算法过程 (1)从N个样本数据中随机选取K个对象作为初始的聚类中心。(2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。(3)所有对象分配完成后,重新计算K个聚类的中心。(4...原创 2019-09-20 17:25:35 · 1889 阅读 · 0 评论 -
数据分析与挖掘(十四)------挖掘建模之聚类分析
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组件(外部)距离最大化。常用聚类方法 类别 包括的主要...原创 2019-09-20 17:21:48 · 491 阅读 · 0 评论 -
数据分析与挖掘笔记(十三)------挖掘建模之分类预测模型特点
常见的模型评价和在python中的实现 模型 模型特点 支持库 逻辑回归 比较基础的线性分析模型,很多时候是简单有效的选择 sklearn.linear_model SVM 强大的模型,可以用来回归、预测、分类等,而根据选取不同的核函数。模型可以是线性的/...原创 2019-09-20 17:20:44 · 504 阅读 · 0 评论 -
数据分析与挖掘笔记(十二)------挖掘建模之分类与预测算法评价
分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集。模型预测效果评价,通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差等指标来衡量。(1)绝对误差与相对误差(2)平均绝对误差(3)均方误差...原创 2019-09-20 16:57:11 · 328 阅读 · 0 评论 -
数据分析与挖掘笔记(十一)------ 挖掘建模之人工神经网络
人工神经网络是模拟生物神经网络进行信息处理的一种数学模型。它以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特点的功能。人工 神经元是人工神经网络操作的基本信息处理单位。人工神经元的模型如图5-6所示,它是人工神经网络的设计基础。一个人工神经元对输入信号的输出为,其中,公式中各字符的含义如图5-6所示。人工神经网络的学习也称为训练,指的是神经...原创 2019-09-20 16:47:51 · 860 阅读 · 0 评论 -
数据分析与挖掘笔记(十)------挖掘建模之决策树
决策树应用领域:分类、预测、规则提取等领域决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出达到这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分...原创 2019-08-21 17:40:10 · 439 阅读 · 0 评论 -
数据分析与挖掘笔记(九)------挖掘建模之回归分析
回归分析回归分析是通过建立模型来研究变量之间的相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下:在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。常用回归模型: 回归...原创 2019-08-21 17:38:42 · 760 阅读 · 0 评论 -
数据分析与挖掘笔记(八)------挖掘与建模之分类与预测
经过数据探索和数据预处理,就能得到可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据种蕴含的商业价值,提高企业竞争力。分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类符号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。一、实现过程:(1)分类分类是...原创 2019-08-21 17:36:50 · 697 阅读 · 0 评论 -
数据分析与挖掘(十九)------挖掘建模之离群点检测
一、引言就餐饮企业而言,经常会碰到如下问题。1)如何根据客户的消费记录检测是否为异常刷卡消费?2)如何检测是否有异常订单?这类异常问题可以通过离群点检测来解决。离群点检测的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都是将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。在上面的数据散布图中,离群点远离其他数据点。因为离群...原创 2019-09-20 17:59:29 · 3154 阅读 · 1 评论