数据挖掘
文章平均质量分 54
夏曦儿
专注数学建模
展开
-
数据常见图表可视化(Python语言)
matplotlib(https://matplotlib.sourceforge.net)支持(PDF,SVG,JPG,PNG,BMP,GIF等)seaborn(https://seaborn.pydata.org)import matplotlib.pyplot as plt#图片与子图import matplotlib.pyplot as pltimport numpy as npfig = plt.figure()ax1 = fig.add_subplot(2,2,1)a原创 2021-09-17 20:40:54 · 178 阅读 · 0 评论 -
数据挖掘与预测分析 读书笔记(四)7种回归模型—1线性回归
七种回归模型线性回归(Linear Regression) 逻辑回归(Logistic Regression) 多项式回归(Polynomial Regression) 逐步回归(Stepwise Regression) 岭回归(Ridge Regression) 套索回归(Lasso Regression) 弹性回归(ElasticNet Regression) 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的...原创 2021-09-17 19:45:33 · 695 阅读 · 0 评论 -
数据常见图表可视化(R语言)
注:R语言中<-和=是有一定区别的,<-是全局作用域 =是局部作用域读取数据集 想复现的同学私聊我获取数据集cars2 <- read.csv(file = "../cars2.txt",stringsAsFactors=TRUE)汽车重量直方图par(mfrow=c(1,1))hist(cars2$weight,breaks=30,xlim=c(0,5000),col="blue",border="black",ylim=c(0,40),xlab="Weight",原创 2021-09-17 15:29:57 · 433 阅读 · 0 评论 -
数据挖掘与预测分析 读书笔记(三)
注:课后问题一、探索性数据分析和假设检验差异:1基本思想不同探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度。验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。2应用前提不同探索性因子分析之前,不必知道要用几个因子,以及各因子和观测变量之间的关系。在进行探索性因子分析时,由于没有先验理论,只能通过因子载荷凭知觉推断数据的因子结构。验证性因子分析则原创 2021-09-16 11:36:10 · 539 阅读 · 0 评论 -
R_churn数据集分析
churn <- read.csv(file = "../churn.txt",stringsAsFactors=TRUE)churn[1:10,]sum.churn <- summary(churn$Churn)prop.churn <- 483/(2850+483)counts <- table(churn$Churn,churn$Int.l.Plan,dnn=c("Churn","International Plan"))countsbarplot(counts,.原创 2021-09-08 14:18:58 · 1324 阅读 · 0 评论 -
数据降维(PCA_Python例子)
PCA——>SVM例子 见资源3原创 2021-09-04 17:28:29 · 146 阅读 · 0 评论 -
数据降维(PCA、因子分析法)
数据降维原因:常用的数据库中包含百万记录和数千个变量,不是所有变量都相互独立,没有任何关联,为防止变量多重共线性的出现而导致的解空间不稳定的后果。而高维空间本身具备稀疏性,例如十维多元正态分布中仅有2%数据位于某超球面内,一维空间中大约有68%的正态分布变量值位于正负标准差之间,因而如果不做降维会在高维解空间中出现某一重要特征的重复使用造成过拟合的情况。降维是利用变量间的相关结构来减少预测变量个数、确保预测变量相互独立、提供最小单元框架解释结果。常用降维方法:主成分分析(PCA:Principa原创 2021-09-04 14:49:48 · 3765 阅读 · 0 评论 -
数据挖掘与预测分析 读书笔记(二)
注意1 应避免将分类数据当作数值数据,当分类数据有序排列时可通过编码转换成数值数据,如变量survey_response 是always、usually、sometimes、never程度依次递减,就可将其依次编码为4、3、2、1按程度依次递减编码转换成数值型数据,好处是方便执行操作计算,也可通过增加自增索引来操作分类数据。注意2 给定一组散乱数据如何分组分箱的五个特征:最大、最小、中位数、25%分位数、75%分位数,其中的(75-25=50)%画箱判断字段变量是否存留:如果字段、记录.原创 2021-09-01 08:21:41 · 152 阅读 · 0 评论 -
数据挖掘与预测分析 读书笔记(一)
数据挖掘的任务:描述、评估、预测、分类、聚类、关联数据:分类数据、顺序数据、数值数据收集数据的五大调查方式:抽查、重点调查、普查、统计报表、典型调查数据预处理:原因:原始数据不完整且含有噪声(过时、冗余、缺失、离群、异常)最主要目的:最小化无用数据输入和无用数据输出(GIGO)处理缺失值:1、常量替代2、对于分类数据用众数替代,对于数值型数据用均值替代3、从数据分布中随机产生一个值替代4、估计缺失值注:对于数值型数据 3比2好的一点是中心和散布的度量值与原始值更为原创 2021-08-31 12:41:19 · 299 阅读 · 2 评论