数据建模
文章平均质量分 78
小天资源
专注于各种资源、教程,免费分享
展开
-
Python数据建模--蒙特卡罗模拟
蒙特卡罗模拟π的计算引入库计算积分 y = x**2厕所排队问题介绍实现图形展示蒙特卡罗模拟介绍:蒙特卡罗(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法,使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。① π的计算② 计算积分 y = x**2③ 排队上厕所问题π的计算引入库import numpy as npimport pandas原创 2020-05-15 10:38:01 · 1627 阅读 · 1 评论 -
Python数据建模--K-means聚类
K-means聚类创建数据构建K均值模型K-means聚类的python实现方法介绍:最常用的机器学习聚类算法,且为典型的基于距离的聚类算法K均值: 基于原型的、划分的距离技术,它试图发现用户指定个数(K)的簇,以欧式距离作为相似度测度创建数据from sklearn.datasets.samples_generator import make_blobs# make_blobs聚类数据生成器x,y_true = make_blobs(n_samples = 300, # 生成300条数原创 2020-05-15 10:33:42 · 1582 阅读 · 0 评论 -
Python数据建模--主成分分析
主成分分析二维数据降维导入库数据创建数据在图形中展示构建模型数据转换,生成新变量数据在图中展示多维数据降维加载数据模型建立二维数据制图主成分筛选绘制结果图PCA主成分分析的python实现方法介绍:最广泛无监督算法 + 基础的降维算法,通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量 → 高维数据的降维分类:二维数据降维 / 多维数据降维二维数据降维导入库import numpy as npimport pandas as pdimport matplotli原创 2020-05-15 10:30:34 · 2980 阅读 · 1 评论 -
Python数据建模--分类
分类电影分类导入库数据创建创建knn模型,并预测【18,90】在图中展示各电影位置增加数据量进行模型训练图中展示植物分类数据导入并输出数据特征把数字转换为标记名字训练模型并预测最邻近分类的python实现方法介绍:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别实例:电影分类 / 植物分类电影分类导入库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matp原创 2020-05-15 10:19:49 · 2004 阅读 · 2 评论 -
Python数据建模--回归
这里写目录标题线性回归的python实现方法简单线性回归导入库生成数据并绘制成散点图训练模型生成测试数据集绘制拟合直线打印直线参数和直线方程误差分析创建样本数据并进行拟合绘制误差线多元线性回归创建数据创建模型,拟合数据线性回归模型评估创建数据多元回归拟合计算均方根、均方差和确定系数介绍:线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建原创 2020-05-15 10:02:00 · 1604 阅读 · 0 评论 -
Python数据预处理--数据连续属性离散化
数据连续属性离散化数据连续属性离散化等宽法导入库创建一组年龄数据并使用cut进行分组用labels参数设置自己的区间名称对DataFrame进行等分利用散点图进行图示显示等频法利用qcut进行四分位数切割利用散点图进行图示显示数据连续属性离散化介绍:连续属性变换成分类属性,即连续属性离散化在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值分类:等宽法 / 等频法等宽法导入库import numpy as npimport原创 2020-05-15 09:36:32 · 2630 阅读 · 1 评论 -
Python数据预处理--数据归一化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上0-1标准化 / Z-score标准化原创 2020-05-15 08:05:45 · 7461 阅读 · 1 评论 -
Python数据预处理--异常值处理
异常值处理异常值分析3σ原则创建数据、计算均值和标准差、筛选异常值绘制数据密度曲线利用散点图绘制出数据和异常值箱型图分析, 较准确箱型图看数据分布情况计算基本统计量和分位差计算异常值条数图表表达介绍:异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补异常值分析3σ原则介绍:3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|原创 2020-05-15 07:43:04 · 5600 阅读 · 4 评论