数据分析基础
文章平均质量分 76
数据分析建模方法
咦,笔记存档
这个作者很懒,什么都没留下…
展开
-
一文搞懂lookup、vlookup、hlookup函数与index、match函数的使用
lookup函数解析当需要查询一行或一列并查找另一行或列中的相同位置的值时,会使用其中一个查找和引用函数LOOKUP。使用方式向量形式在一行或一列中搜索值。 如果要指定包含要匹配的值的区域,请使用这种形式。 例如,如果要在 A 列中向下搜索值到第 6 行。语法:LOOKUP(①查找值,②查找值所在区域,③返回的结果)②为单行区域或单列区域,查找值所在区域必须先排序,否则出错。③可以省略没有精确匹配对象时,返回小于等于目标值的最大值重要: lookup_vector 中的值必须按升序排列:原创 2021-07-25 21:09:09 · 4655 阅读 · 0 评论 -
SQL行列问题
日常工作中,为了让数据的可读性更强,经常会对数据格式进行转化操作。总结一下日常工作中遇到的关于行列操作问题。单行拆分成多行--创建测试数据CREATE TABLE fwj.customer(id STRING,name STRING,mobiles STRING);INSERT INTO fwj.customerSELECT '1','jim','139,177,158' FROM system.dual;-- 解法一,不建议选择SELECT a.id,a.name,substr原创 2021-01-04 21:31:18 · 399 阅读 · 0 评论 -
过拟合(overfitting)和欠拟合(underfitting)出现原因及如何避免方案
文章目录欠拟合一、什么是欠拟合?二、欠拟合出现原因三、解决欠拟合(高偏差)的方法过拟合一、什么是过拟合?二、过拟合出现原因三、解决过拟合(高方差)的方法欠拟合一、什么是欠拟合?欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。二、欠拟合出现原因模型复杂度过低特征量过少三、解决欠拟合(高偏差)的方法1. 模型复杂化• 对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐原创 2020-06-28 21:45:44 · 33831 阅读 · 1 评论 -
统计学中常用的数据分析方法汇总
文章目录一、描述统计二、假设检验三、信服分析四、列联表分析五、相关分析六、方差分析一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量原创 2020-06-21 15:38:22 · 6127 阅读 · 0 评论 -
探索性数据分析EDA及数据分析图表的选择
文章目录一、探索性数据分析EDA二、数据分析图表的选择一、探索性数据分析EDA探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先验假设,而是通过作图表和统计等方式来探索数据结构和规律。在EDA中你可以构思各种各样的假设,并通过数据分析去寻找相应的反馈,以此迭代来寻找到数据集中分布的规律。在探索的过程中会随着不断的深入对数据理解更加深刻。EDA的流程如下:提出问题;筛选、清洗数据;分析数据;构建模型;得出结论。EDA的过程与数据挖掘的流原创 2020-06-21 15:25:10 · 814 阅读 · 0 评论 -
ETL详解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不转载 2020-05-09 19:28:23 · 370 阅读 · 0 评论 -
Python数据预处理数据的方法总结(使用sklearn-preprocessing)
文章目录数据预处理思路1. 标准化:去均值,方差规模化数据预处理思路1.首先要明确有多少特征,哪些是连续的,哪些是类别的。2.检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。3.对连续的数值型特征进行标准化,使得均值为0,方差为1。4.对类别型的特征进行one-hot编码。5.将需要转换成类别型数据的连续型数据进行二值化。6.为防止过拟合或者其他原因,选择是否要将数据...原创 2020-04-01 16:02:31 · 5079 阅读 · 0 评论 -
常见的几种流失预警模型
建立预警模型的目的是提前识别潜在流失用户,为挽留用户赢得时间。流失预警模型,不应该只是单一的模型,而应该是一系列模型。预警模型的优劣通常用准确率、召回率来衡量。准确率:预测为流失的用户中,有多少真的流失。召回率:真实的流失用户中,有多少被预测为流失。对于结果类的预测模型,只关注预测的准确性。比如,预测股票的涨跌,只要模型预测准确,按预测结果操作即可。但对于策略类的预测模型,预测只是第一步,还需...原创 2020-03-10 14:45:30 · 6154 阅读 · 0 评论 -
Sklearn.metrics评估方法
文章目录混淆矩阵分类准确率 accuracy精确率Precision召回率 recall混淆矩阵混淆矩阵的APIfrom sklearn.metrics import confusion_matrix confusion_matrix = confusion_matrix(y_test, y_predict)分类准确率 accuracy所有样本中被预测正确的样本的比率分类模型总体判...原创 2020-03-07 17:12:13 · 807 阅读 · 1 评论 -
机器学习算法优缺点对比及选择
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个...原创 2020-03-04 14:35:18 · 926 阅读 · 0 评论 -
清华镜像源安装 NGboost XGboost Catboost
pip install catboost -i https://pypi.tuna.tsinghua.edu.cn/simplepip install ngboost -i https://pypi.tuna.tsinghua.edu.cn/simplepip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple原创 2020-02-17 12:59:29 · 3518 阅读 · 0 评论 -
数据分析方法-聚类算法
文章目录一、定义二、聚类、分类区别分类聚类常用算法一、定义聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。数据之间的相似性是通过定义一个距离或者相似性系数来判别的。二、聚类、分类区别分类分类聚类是一种有监督式的学习过程是一种无监督式的学...原创 2019-12-30 16:54:08 · 3891 阅读 · 0 评论 -
数据分析统计学基础一
文章目录数据分析方法分类1、单纯的数据加工方法2、基于数理统计的数据分析方法3、基于数据挖掘的数据分析方法4、基于大数据的数据分析方法数据分析方法分类1、单纯的数据加工方法a.描述性统计分析(集中、离中趋势分析和数据分布)b.相关性分析2、基于数理统计的数据分析方法方差分析、回归分析(特指一元线性回归)、因子分析3、基于数据挖掘的数据分析方法a.聚类分析b.分类分析(决策树、人工神经...原创 2019-12-30 14:32:42 · 2403 阅读 · 0 评论 -
数据分析方法--回归分析方法((SPSS建模:多元线性回归案例)
文章目录回归定义最常用回归方法一、线性回归(Linear Regression)二、逻辑回归(Logistic Regression)回归定义回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。最常用回归方法一、...原创 2019-12-28 22:21:46 · 25039 阅读 · 2 评论