![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 79
小天资源
专注于各种资源、教程,免费分享
展开
-
Python数据建模--蒙特卡罗模拟
蒙特卡罗模拟π的计算引入库计算积分 y = x**2厕所排队问题介绍实现图形展示蒙特卡罗模拟介绍:蒙特卡罗(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法,使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。① π的计算② 计算积分 y = x**2③ 排队上厕所问题π的计算引入库import numpy as npimport pandas原创 2020-05-15 10:38:01 · 1627 阅读 · 1 评论 -
Python数据建模--K-means聚类
K-means聚类创建数据构建K均值模型K-means聚类的python实现方法介绍:最常用的机器学习聚类算法,且为典型的基于距离的聚类算法K均值: 基于原型的、划分的距离技术,它试图发现用户指定个数(K)的簇,以欧式距离作为相似度测度创建数据from sklearn.datasets.samples_generator import make_blobs# make_blobs聚类数据生成器x,y_true = make_blobs(n_samples = 300, # 生成300条数原创 2020-05-15 10:33:42 · 1582 阅读 · 0 评论 -
Python数据建模--主成分分析
主成分分析二维数据降维导入库数据创建数据在图形中展示构建模型数据转换,生成新变量数据在图中展示多维数据降维加载数据模型建立二维数据制图主成分筛选绘制结果图PCA主成分分析的python实现方法介绍:最广泛无监督算法 + 基础的降维算法,通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量 → 高维数据的降维分类:二维数据降维 / 多维数据降维二维数据降维导入库import numpy as npimport pandas as pdimport matplotli原创 2020-05-15 10:30:34 · 2980 阅读 · 1 评论 -
Python数据建模--分类
分类电影分类导入库数据创建创建knn模型,并预测【18,90】在图中展示各电影位置增加数据量进行模型训练图中展示植物分类数据导入并输出数据特征把数字转换为标记名字训练模型并预测最邻近分类的python实现方法介绍:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别实例:电影分类 / 植物分类电影分类导入库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matp原创 2020-05-15 10:19:49 · 2004 阅读 · 2 评论 -
Python数据建模--回归
这里写目录标题线性回归的python实现方法简单线性回归导入库生成数据并绘制成散点图训练模型生成测试数据集绘制拟合直线打印直线参数和直线方程误差分析创建样本数据并进行拟合绘制误差线多元线性回归创建数据创建模型,拟合数据线性回归模型评估创建数据多元回归拟合计算均方根、均方差和确定系数介绍:线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建原创 2020-05-15 10:02:00 · 1604 阅读 · 0 评论 -
Python数据预处理--数据连续属性离散化
数据连续属性离散化数据连续属性离散化等宽法导入库创建一组年龄数据并使用cut进行分组用labels参数设置自己的区间名称对DataFrame进行等分利用散点图进行图示显示等频法利用qcut进行四分位数切割利用散点图进行图示显示数据连续属性离散化介绍:连续属性变换成分类属性,即连续属性离散化在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值分类:等宽法 / 等频法等宽法导入库import numpy as npimport原创 2020-05-15 09:36:32 · 2630 阅读 · 1 评论 -
Python数据预处理--数据归一化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上0-1标准化 / Z-score标准化原创 2020-05-15 08:05:45 · 7461 阅读 · 1 评论 -
Python数据预处理--异常值处理
异常值处理异常值分析3σ原则创建数据、计算均值和标准差、筛选异常值绘制数据密度曲线利用散点图绘制出数据和异常值箱型图分析, 较准确箱型图看数据分布情况计算基本统计量和分位差计算异常值条数图表表达介绍:异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补异常值分析3σ原则介绍:3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|原创 2020-05-15 07:43:04 · 5600 阅读 · 4 评论 -
Python数据预处理--缺失值处理
介绍:数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著处理方法:删除记录 / 数据插补 / 不处理原创 2020-05-15 07:30:08 · 3164 阅读 · 0 评论 -
Python数据特征分析-对比分析
Python数据特征分析-对比分析对比分析1、绝对数比较 → 相减生成数据折线图比较柱状图比较柱状图堆叠图比较差值折线图比较2、相对数比较 → 相除结构分析生成数据计算额度占比绘制折线图比较AB产品比例分析创建数据-> 消费收入比->面积图表达空间比较分析(横向对比分析)创建数据通过柱状图做横向比较 → 4个产品的销售额总量多系列柱状图,横向比较前十天4个产品的销售额动态对比分析(纵向对比分析)介绍:创建数据 → 30天内A产品的销售情况计算累积增长量和逐期增长量通过折线图查看增长量情况通过折线原创 2020-05-12 09:40:32 · 3620 阅读 · 0 评论 -
Python特征分析- 相关性分析
Python特征分析- 相关性分析相关性分析引入库图示初判变量之间的线性相关性散点图矩阵初判多变量间关系Pearson相关系数创建样本数据正态性检验 → pvalue >0.05制作Pearson相关系数求值表求出rPearson相关系数 - 算法Sperman秩相关系数创建样本数据重新排序、index求出rsPearson相关系数 - 算法相关性分析介绍:分析连续变量之间的线性相关程度的强弱方法:图示初判 / Pearson相关系数(皮尔逊相关系数) / Sperman秩相关系数(斯皮尔曼相关原创 2020-05-12 10:35:16 · 14114 阅读 · 2 评论 -
Python特征分析-正态性检验
Python特征分析-正态性检验正态性检验引入库直方图初判QQ图判断创建数据->计算均值、方差、百分位数、1/4\,2/4位数绘制数据分布图、直方图、QQ图KS检验理论推导直接用算法做KS检验正态性检验介绍:利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。方法:直方图初判 、 QQ图判断、 K-S检验引入库import matplotlib.pyplot as pltimport numpy as npimport pandas原创 2020-05-12 10:22:42 · 1663 阅读 · 0 评论 -
Python数据特征分析-帕累托分析
Python数据特征分析-帕累托分析帕累托分析介绍:引入所需要的库创建数据,10个品类产品的销售额排序并创建营收柱状图找出累计占比超过80%时候的index和索引位置找出核心产品(决定性因素产品)把80%的点绘制到图中帕累托分析介绍:帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于2原创 2020-05-12 10:01:34 · 2188 阅读 · 0 评论 -
Python数据特征分析-统计分析
Python数据特征分析-统计分析统计分析导入库集中趋势度量算数平均数位置平均数离中趋势度量极差、分位差方差与标准差统计分析介绍:统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析导入库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline集中趋势度量介绍:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 —— 统计平均数分为:算数原创 2020-05-12 09:49:07 · 3223 阅读 · 0 评论 -
python数据特征分析--分布分析
python数据特征分析数据读取,查看数据类型定量数据分析绘制散点图,查看房屋价格的大致分布使用直方图对定量字段进行分组分析,查看参考总价的数据分布使用cut、gcut函数,对参考总价进行分组并应用到总数据中,计算出每一个二手房的参考总价所属的价格区间。计算分组之后的参考总价的频数、频率、累积频率并可视化显示绘制参考总价分布频率直方图定性字段统计二手房朝向的频率、累计频率、频率百分比、累计频率百分比介绍:分布分析 → 研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量数据读取,查看数据类型原创 2020-05-12 09:10:57 · 9932 阅读 · 2 评论 -
利用Python+matplotlib对泰坦尼克号进行数据分析
主要分析有数据接:https://pan.baidu.com/s/1jn88GiOr7uWA8BDQocFXxg 密码: s0e0不同舱位等级中幸存者和遇难者的乘客比例不同性别的幸存比例幸存和遇难旅客的票价分布幸存和遇难乘客的年龄分布不同上船港口的乘客仓位等级分布幸存和遇难乘客堂兄弟姐妹的数量分布幸存和遇难旅客父母子女的数量分布单独乘船与否和幸存之间有没有联系是否成年男性和幸存之间有没有联系数...原创 2020-04-02 16:15:16 · 3293 阅读 · 1 评论 -
使用KNN分类器对sklearn中自带的make_blobs数据进行分类
1.使用make_blobs生成样本为200,分类为2的数据集,并绘制成散点图。import matplotlib.pyplot as plt# 导入数据集from sklearn.datasets import make_blobs# 导入KNN分类器from sklearn.neighbors import KNeighborsClassifier# 导入数据集拆分工具fro...原创 2020-03-21 15:45:18 · 991 阅读 · 0 评论 -
tableau绘制热图
效果展示*操作步骤:导入数据源–绘制热力图雏形–调节颜色–设置中间值–排序–显示更多信息。1.数据来源:tableau自带的数据源示例–超市。*2.选中子类别,省/自治区和利润在右边智能显示中选中热图,就可绘制出一个简单的热图,但是这并不是我们想象中的样子。3.我们对这个热图进行简单的美化,首先把总和利润使用颜色来显示,这就比较接近我们想象中的样子了。...原创 2020-03-21 09:11:32 · 5514 阅读 · 0 评论 -
tableau中的表格种类
1.表格的基本框架 1. 行(row):形成表格行行动元素 2. 列(column):形成表格的列元素 行和列元素相交就会形成一个简单的二维表,行,列元素不同取值的组合就确定了一个单元格。 &...原创 2020-03-21 08:03:49 · 1977 阅读 · 0 评论 -
定位公司主要客户--从不同表中读入筛选数据并绘制出前十的数据
数据分布:订单明细表中订单ID,单价,折扣,数量,订单表中:订单ID,客户ID,客户表中的客户信息。分析目的:筛选出销售额前十的用户制作结果分析,订单明细表,根据订单明细表中的数据计算出单品总金额。创建自定义SQL–填入SQL语句(select 订单ID, 单价数量(1-折扣) as producttot from 订单明细,点击预览结果,如果没问题,点击确定。计算订单总...原创 2020-03-17 16:44:49 · 774 阅读 · 0 评论 -
tableau篇之泰坦尼克号逃生分布图形化分析
使用图形目的:更加清晰的展现数据内容所使用的图形:水平条,堆叠条,并排图,树状图,圆视图,并排圆,盒须图,气泡图。这些图形是在上一例的基础上绘制出来的(上一例)原来的模样:*1.绘制水平条,点击右侧水平条即可绘制出水平条。点击交换行列按钮可以把图形从水平条变为柱状图。*点击交换行列按钮可以把图形从水平条变为柱状图。*2.绘制层叠图,点击右侧层叠图即可绘制出层叠...原创 2020-03-17 15:35:56 · 1139 阅读 · 0 评论 -
tableau篇之泰坦尼克号年龄分布图形化分析
使用图形目的:更加清晰的展现数据内容所使用的图形:水平条,堆叠条,并排图,树状图,圆视图,并排圆,盒须图,气泡图。这些图形是在上一例的基础上绘制出来的(上一例)原来的模样:*1.绘制水平条,点击右侧水平条即可绘制出水平条。点击交换行列按钮可以把图形从水平条变为柱状图。*点击交换行列按钮可以把图形从水平条变为柱状图。*如果我们想在柱状图上面加入柱状图大小怎么办呢,点击...原创 2020-03-17 15:08:27 · 2263 阅读 · 1 评论 -
tableau篇之泰坦尼克号逃生者分布表格化分析
分析目的:分析泰坦尼克号数据中不同舱位、不同性别的生还者分布,以表格的形式展示出来。分析结果展示:*分析结论:从性别来看女性生人数比男性高,从不同舱位来看头等舱生还人数最多、三等舱次之、二等舱最少,从总体来看:在所有舱位中女性均比男性生还人数高。1.使用tableau打开数据集:其中各字段含义为: PassengerId ,乘客的...原创 2020-03-17 13:01:13 · 1589 阅读 · 0 评论 -
tableau篇之泰坦尼克号年龄分布表格化分析
分析目的:分析泰坦尼克号数据中不同舱位、不同性别的平均年龄分布,以表格的形式展示出来。分析结果展示: ...原创 2020-03-17 12:25:09 · 2103 阅读 · 0 评论 -
案例-基于RFM的精细化用户管理
# 导入库import time # 时间库import numpy as np # numpy库import pandas as pd # pandas库import pymysql # mysql连接库from pyecharts import Bar3D # 3D柱形图from sklearn.ensemble import RandomForestClassifi...原创 2020-03-15 08:54:08 · 292 阅读 · 0 评论 -
案例-基于多项式贝叶斯的增量学习的文本分类
# 说明# - Python版本:64位 3.7# - 依赖库:re、tarfile、os、numpy、bs4、sklearn# - 程序输入:article.txt、news_data.tar.gz# - 程序输出:打印输出新的内容所属的主题信息# 程序# 导入库import osimport reimport tarfileimport numpy as np...原创 2020-03-15 08:53:48 · 405 阅读 · 0 评论 -
案例-基于潜在狄利克雷分配(LDA)的内容主题挖掘
# 一、案例-基于潜在狄利克雷分配(LDA)的内容主题挖掘# 说明# - Python版本:64位 3.7# - 依赖库:tarfile、os、jieba、gensim、bs4# - 程序输入:article.txt、news_data.tar.gz# - 程序输出:打印输出18个主题及新文本的预测主题归属# 程序# 导入库import osimport tarfile...原创 2020-03-15 08:53:11 · 902 阅读 · 2 评论 -
案例-基于自动K值的KMeans广告效果聚类分析
# 二、案例-基于自动K值的KMeans广告效果聚类分析# 说明# - Python版本:64位 3.7# - 依赖库:matplotlib、numpy、pandas、sklearn# - 程序输入:ad_performance.txt# - 程序输出:打印输出不同聚类类别的信息# 程序# 导入库import matplotlib.pyplot as plt # 图形库...原创 2020-03-15 08:52:33 · 1234 阅读 · 0 评论 -
案例-基于自动节点树的数据异常原因下探分析
# - 依赖库:datetime、numpy、pandas、graphviz# - 程序输入:advertising_data.csv# - 程序输出:打印输出并保存节点树图change_analysis_tree.png# 程序# 导入库import datetimeimport numpy as npimport pandas as pdfrom graphviz im...原创 2020-03-15 08:51:53 · 234 阅读 · 0 评论 -
案例-基于集成算法AdaBoost、GradientBoosting、RandomForest和Bagging的投票组合模型的异常检测
# - 依赖库:numpy、pandas、sklearn、imblearn# - 程序输入:abnormal_orders.txt# - 程序输出:预测数据直接打印输出## 程序# 导入库import numpy as npimport pandas as pd # pandas库from imblearn.over_sampling import SMOTE # 过抽样处...原创 2020-03-15 08:51:17 · 328 阅读 · 0 评论 -
案例-基于Gradient Boosting的自动超参数优化的销售预测
# 导入库import matplotlib.pyplot as plt # 导入图形展示库import numpy as np # 导入numpy库import pandas as pd # 导入pandas库from sklearn.ensemble import GradientBoostingRegressor # 集成方法回归库from sklearn.metrics...原创 2020-03-15 08:50:45 · 816 阅读 · 0 评论 -
案例-基于嵌套Pipeline和FeatureUnion复合数据工作流的营销响应预测
# 导入库import timeimport pandas as pdfrom imblearn.over_sampling import SMOTE # 过抽样处理库SMOTEfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysisfrom sklearn.ensemble import Random...原创 2020-03-15 08:50:12 · 217 阅读 · 0 评论 -
文本聚类
# 导入库import numpy as npimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer # 基于TF-IDF的词频转向量库from sklearn.cluster import KMeansimport jieba.posseg as pseg# 中文分词def ...原创 2020-03-15 08:49:43 · 186 阅读 · 0 评论 -
词频统计
# 导入库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示...原创 2020-03-15 08:49:03 · 130 阅读 · 0 评论 -
异常检测分析
# 导入库import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import OrdinalEncoder # 标准化库from sklearn.ensemble import IsolationForestfrom mpl_toolkits.mplot3d import Axes3D...原创 2020-03-15 08:44:56 · 271 阅读 · 0 评论 -
分类分析-案例:用户流失预测分析与应用
# 导入库import pandas as pdfrom sklearn.model_selection import train_test_split # 数据分区库import xgboost as xgbfrom sklearn.metrics import accuracy_score, auc, confusion_matrix, f1_score, \ precisi...原创 2020-03-15 08:44:24 · 385 阅读 · 0 评论 -
回归分析-案例:大型促销活动前的销售预测
# 导入库import pandas as pdimport numpy as npfrom sklearn.linear_model import BayesianRidge, ElasticNet # 批量导入要实现的回归算法from sklearn.svm import SVR # SVM中的回归算法from xgb import XGBRegressorfrom sklea...原创 2020-03-14 15:25:43 · 1455 阅读 · 1 评论 -
聚类分析-案例:客户特征的聚类与探索性分析
import matplotlib.pyplot as plt # 图形库import numpy as np# 导入库import pandas as pd # panda库from sklearn.cluster import KMeans # 导入sklearn聚类模块from sklearn.metrics import silhouette_score, calinski...原创 2020-03-14 12:33:09 · 526 阅读 · 0 评论 -
Python---数据预处理三
11.网页数据解析# 导入库import requests # 用于发出HTML请求from bs4 import BeautifulSoup # 用于HTML格式化处理import pandas as pd # 格式化数据class WebParse: # 初始化对象 def __init__(self, headers): self.head...原创 2020-03-14 10:25:21 · 250 阅读 · 0 评论 -
Python---数据预处理二
3.7 解决运营数据的共线性问题# 导入相关库import numpy as npfrom sklearn.linear_model import Ridgefrom sklearn.decomposition import PCAfrom sklearn.linear_model import LinearRegression# 读取数据data = np.loadtxt('da...原创 2020-03-14 10:21:08 · 156 阅读 · 0 评论