数据分析
你的破壁人呀
people come and go,my heart will go on
展开
-
MySQL实现列数据的分组拼接
数据源表:想要修改成的样子方法:使用MySQL中GROUP_CONCAT分组拼接函数实现SELECT 处方号,GROUP_CONCAT(distinct 药品编码 order by 药品编码 asc separator ';') 药品 from tb_医疗GROUP BY 处方号原创 2021-09-12 21:44:55 · 1119 阅读 · 1 评论 -
解决FineBI数据过滤功能无法正常使用问题
FineBI版本:FineBI5.1问题描述:在使用帆软数据过滤功能时,过滤字段无法拖入选项框内原因:帆软版本与插件不兼容造成解决方式:在帆软后台选择管理系统->插件管理->本地安装,更新插件即可解决。插件下载:链接:https://pan.baidu.com/s/1dj4rAZHzsKpmIJat-iSHlg 提取码:gwbb...原创 2021-09-03 13:52:15 · 1696 阅读 · 2 评论 -
FineBI连接无法连接mysql数据库问题解决
FineBI版本:FineBI5.1MySQL版本:MySQL8.0问题描述:在使用FineBI中数据连接功能连接MySQL数据库时,无法成功连接,错误信息如图问题解析:FineBI5.1中MySQL连接驱动包为mysql-connector-java-5.1.39-bin.jar,与MySQL8.0不兼容,因此会发生连接失败情况。解决方式:更换MySQL连接驱动包具体步骤:(1)从MySQL官网下载对应当前 MySQL 小版本的连接驱动包,以 MySQL8.0.17 版本...原创 2021-09-03 10:47:01 · 4150 阅读 · 0 评论 -
python合并 excle表格至MySQL
需求背景:现在有九百多个excle表格,每个表格的格式都相同,需要把这些表格的内容都合并到一块,同时将文件名也增加到合并后的表格中,座位每一个excel的标识之一。部分文件截图:实现代码;import xlrd, xlwt # 读写excle文件的两个库import os # 操作文件的库import pymysql # 连接MySQL的库dir_str = ...原创 2020-03-02 21:20:44 · 196 阅读 · 0 评论 -
数据分析与挖掘(十四)------挖掘建模之聚类分析
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组件(外部)距离最大化。常用聚类方法 类别 包括的主要...原创 2019-09-20 17:21:48 · 454 阅读 · 0 评论 -
数据分析与挖掘(十五)------挖掘建模之K-Means聚类算法
K-Means算法是经典的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。1.算法过程 (1)从N个样本数据中随机选取K个对象作为初始的聚类中心。(2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。(3)所有对象分配完成后,重新计算K个聚类的中心。(4...原创 2019-09-20 17:25:35 · 1770 阅读 · 0 评论 -
数据分析与挖掘(十六)------挖掘建模之聚类分析算法评价及主要聚类分析算法
一、聚类分析算法评价聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越好。(1)purity评价法(2)RI评价法(3)F值评价法二、python主要聚类分析算法python的聚类相关的算法主要在Scikit-Learn中,p...原创 2019-09-20 17:30:26 · 538 阅读 · 1 评论 -
数据分析与挖掘(十七)------挖掘建模之关联规则
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如,一个超市的经理想要更多的了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包=>牛奶”,其中面包称为规则的前项而牛奶称为后项。通过对...原创 2019-09-20 17:38:54 · 2018 阅读 · 1 评论 -
数据分析与挖掘(十八)------挖掘建模之时序模式
一、引言就餐饮企业而言,经常会碰到如下问题:由于餐饮行业是生产和销售同时进行,因此销售预测对于餐饮企业十分必要。如何基于菜品历史销售数据,做好餐饮销售预测,以便减少菜品脱销现象和避免因备料不足而造成的生产延误,从而减少菜品生产等待时间,提供给客户更优质的服务,同时可以减少安全库存量,做到生产准时制,降低物流成本。餐饮销售预测可以看作是基于时间序列的短期数据预测,预测对象为具体菜品销售量...原创 2019-09-20 17:52:59 · 4021 阅读 · 1 评论 -
数据分析与挖掘(十九)------挖掘建模之离群点检测
一、引言就餐饮企业而言,经常会碰到如下问题。1)如何根据客户的消费记录检测是否为异常刷卡消费?2)如何检测是否有异常订单?这类异常问题可以通过离群点检测来解决。离群点检测的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都是将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。在上面的数据散布图中,离群点远离其他数据点。因为离群...原创 2019-09-20 17:59:29 · 2994 阅读 · 1 评论 -
数据分析与挖掘笔记(十三)------挖掘建模之分类预测模型特点
常见的模型评价和在python中的实现 模型 模型特点 支持库 逻辑回归 比较基础的线性分析模型,很多时候是简单有效的选择 sklearn.linear_model SVM 强大的模型,可以用来回归、预测、分类等,而根据选取不同的核函数。模型可以是线性的/...原创 2019-09-20 17:20:44 · 466 阅读 · 0 评论 -
数据分析与挖掘笔记(十二)------挖掘建模之分类与预测算法评价
分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集。模型预测效果评价,通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差等指标来衡量。(1)绝对误差与相对误差(2)平均绝对误差(3)均方误差...原创 2019-09-20 16:57:11 · 310 阅读 · 0 评论 -
数据分析与挖掘笔记(十一)------ 挖掘建模之人工神经网络
人工神经网络是模拟生物神经网络进行信息处理的一种数学模型。它以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特点的功能。人工 神经元是人工神经网络操作的基本信息处理单位。人工神经元的模型如图5-6所示,它是人工神经网络的设计基础。一个人工神经元对输入信号的输出为,其中,公式中各字符的含义如图5-6所示。人工神经网络的学习也称为训练,指的是神经...原创 2019-09-20 16:47:51 · 804 阅读 · 0 评论 -
数据分析与挖掘笔记(一)------数据分析与挖掘相关库
python数据挖掘相关扩展库 扩展库 简介 功能 Numpy 提供数组支持,以及相应的高效的处理函数 高效的数组支持 Scipy(依赖于Numpy) 提供矩阵支持,以及矩阵相关的数值计算模块 最优化、线性代数...原创 2019-08-16 10:47:40 · 211 阅读 · 0 评论 -
数据分析与挖掘笔记(二)-------数据质量分析
作用:数据预处理的前提,也是数据挖分析结论有效性和准确性的基础。主要任务:检查原始数据中是否存在脏数据(不符合要求,以及不能直接进行相应分析的数据。如缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据)一、缺失值分析: 产生原因: 信息无法获取 信息被遗漏 属性值不存在 缺失值 影响: 数据挖掘建模将丢失...原创 2019-08-16 10:52:36 · 440 阅读 · 0 评论 -
数据分析与挖掘笔记(三)------数据特征分析
分布分析: 揭示数据的分布特征和分布类型。 数据类型 需求 图表 定量数据 分布形式(对称、非对称) 发现特大(特小)可疑值 频率分布表 频率分布直方图 茎叶图 定性分类数据 分布情况 ...原创 2019-08-16 10:58:48 · 827 阅读 · 0 评论 -
数据分析与挖掘笔记(四)------python主要数据函数
一、基本统计特征函数 方法名 功能 所属库 使用格式 样本格式 sum() 计算数据样本的总和(按列计算) Pandas D.sum() 按列计算样本D的总和 DataFrame ...原创 2019-08-16 11:01:44 · 199 阅读 · 0 评论 -
数据分析与挖掘笔记(五)------数据预处理
数据预处理主要包含以下几个步骤:数据预处理步骤介绍: 数据预处理 定义 具体操作 数据清洗 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等 缺失值处理 异常值处理 数据集成 ...原创 2019-08-16 11:07:38 · 1358 阅读 · 0 评论 -
数据分析与挖掘笔记(七)------数据预处理之python主要数据预处理函数
函数名 所属库 功能 使用格式 实例 interpolate Scipy 一维、高维数据插值。 interpolate是Scipy的一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要用 from sci...原创 2019-08-16 11:12:36 · 363 阅读 · 0 评论 -
数据分析与挖掘笔记(八)------挖掘与建模之分类与预测
经过数据探索和数据预处理,就能得到可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据种蕴含的商业价值,提高企业竞争力。分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类符号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。一、实现过程:(1)分类分类是...原创 2019-08-21 17:36:50 · 673 阅读 · 0 评论 -
数据分析与挖掘笔记(九)------挖掘建模之回归分析
回归分析回归分析是通过建立模型来研究变量之间的相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下:在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。常用回归模型: 回归...原创 2019-08-21 17:38:42 · 699 阅读 · 0 评论 -
数据分析与挖掘笔记(十)------挖掘建模之决策树
决策树应用领域:分类、预测、规则提取等领域决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出达到这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分...原创 2019-08-21 17:40:10 · 410 阅读 · 0 评论 -
python更新第三方库
python对安装的第三方库进行更新一、pip list --outdated查看可更新的库。Version为当前版本,Latest为最新的库。二、pip install --upgrade scipy 对准备更新的库进行更新更新完成...原创 2019-08-19 16:39:43 · 8233 阅读 · 0 评论