数据分析
Edward_is_1ncredible
这个作者很懒,什么都没留下…
展开
-
[Python数据分析] 3-多因子探索性数据分析与复合分析
I.理论部分 1)假设检验与方差检验 i.假设检验: 根据一定假设条件由样本推断总体的一种方法,包括了: 1.正态分布检验 2.卡方检验: 实际观测值与理论推断值之间的偏离程度,检验两个因素建有没有联系 3.独立t检验:判断两个平均数的差异是否显著(条件:n<30,总体标准差σ未知的正态分布) 4.方差检验/F检验: 判断该模型中的全部或一部分参数是否适合用...原创 2018-08-15 11:46:32 · 1542 阅读 · 0 评论 -
[Python数据分析] 2-单因子探索分析与可视化
I.理论部分 1)概念相关: 集中趋势:均值,中位数,众数,分位数 离中趋势:标准差,方差 数据分布:偏度系数,峰度系数,正态分布,三大分布 抽样理论:抽样误差(确定样本量)、抽样精度 2)数据分类 定类(类别):根据事物离散,无差别属性进行的分类。性别,民族 定序(顺序):可以界定数据的大小,但不能测定差值。低中高 定距(间隔):可以界定数据大小的同时测定差值,但无绝对零点(乘除比率等...原创 2018-08-14 14:31:01 · 994 阅读 · 0 评论 -
[Python数据分析] 1-数据获取
1)数据仓库 I.特点: 1.全部事实的记录 2.部分维度和数据的整理(数据集市) II.数据库与数据仓库的不同 1.数据库面向业务存储,数据仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述) 2.数据库针对应用,数据仓库针对分析 3.数据库组织规范,数据仓库数据量大且杂乱 2)监测与抓取 直接解析网页、接口、文件...原创 2018-08-13 16:55:04 · 707 阅读 · 0 评论 -
[Python数据分析] 4-预处理理论
I.理论部分 数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限而已 1)特征工程 i.特征使用:数据选择,数据可用性 ii.特征获取:特征来源,特征存储 iii.特征处理:数据清洗,特征预处理 1.数据清洗:抽样,异常值处理 2.特征预处理:特征选择,特征变换,特征降维,特征延伸 iv.特征监控:现有特征,新特征 II.编码实现 # 1)特征预处理: # 概念:标注(标记,...原创 2018-08-25 15:35:24 · 589 阅读 · 0 评论 -
[Python数据分析] 5-挖掘建模(监督学习)
# I.理论部分:机器学习是过程,模型是这个过程的结果 # 1)机器学习和建模 # i.学习:通过接收到的数据,归纳提取相同与不同 # ii.机器学习:让计算机以数据为基础,进行归纳和总结 # iii.模型:数据解释现象的系统 # 2)数据集:通常来说各部分占比:训练集6:验证集2:测试集2 # i.训练集:训练拟合模型 # ii.验证集:通过训练集训练出多个模型后,使用验证集数据纠正或比较预测...原创 2018-08-29 22:56:20 · 812 阅读 · 0 评论 -
[Python数据分析] 6-挖掘建模(无监督学习)
# III.无监督学习编码实现(聚类和关联) # 1.数据集的设定 import numpy as np import matplotlib.pyplot as plt import scipy.stats as ss # 引入sklearn包中的datasets接口模拟一些点 from sklearn.datasets import make_circles,make_moons,make_b...原创 2018-09-05 17:42:15 · 452 阅读 · 0 评论