Python数据分析
Frank_0415
这个作者很懒,什么都没留下…
展开
-
SPSS——连续变量的描述统计
连续变量的统计描述指标体系 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布类型资料 分布特征:如描述正态分布的偏度系数和峰度系数 其他趋势:如可同事反应集中趋势和离散趋势的百分位数指标;描述数据的偏态分布、单峰分布和双峰分布;与异常值数据进行描述...原创 2018-09-04 17:41:07 · 5939 阅读 · 0 评论 -
Python:字符串相似度计算及应运
(首先吐槽一番,发泄一下)最近初入一家数据服务公司做Intern Analyst,听名字是不是感觉很牛,然而作为实习生的小编我只能负责摘摘数据,更新一下KPI,让小编我甚是郁闷。然而,在工作中也遇到了一个小难题,问题虽小,也得有人解决不是!问题:作为数据分析师,很多人是不懂编程的,但工作中又常常需要对比数据。比如,leader第一次交给我的任务就是,对比Excel中顾客两次购买产品收货地址是否...原创 2018-08-19 09:47:49 · 1635 阅读 · 0 评论 -
数据挖掘:Requests模块
发现学习Python的小伙伴都是从“爬虫”入坑的,这里就分享一篇爬虫技术常用的Requests库的文章。来自Requests库的发明者Kenneth Reitz。曾几何时,制作网络爬虫需要先导入“urllib”库,然后再进行各种套用,繁琐而复杂。现在介绍神奇的"requests"库,用大神Matt DeBoard的话说就是:“I’m going to get Kenneth Reitz’s P...原创 2018-08-23 17:17:06 · 316 阅读 · 0 评论 -
数据挖掘思路
1.数据取样标准:可靠性,相关性,有效性。抽取数据的常见方式有:随机抽样,等距抽样,分层抽样,从起始顺序抽样分类抽样。2.数据探索:异常值分析,缺失值分析,相关性分析和周期性分析等。3.数据预处理:数据筛选,数据变量转换,缺失值处理,坏数据处理,数据标准化,主成分分析,属性选择,数据规约等。4.选择构建的模型:分类,聚类,关联规则,时序模式或者智能推荐等。5.模...原创 2018-08-26 10:38:12 · 1002 阅读 · 0 评论 -
SPSS——连续变量的参数估计
连续变量的描述统计与参数估计根据样本数据对总体的客观规律性做出合理的估计就是统计推断,其中又分为参数估计和假设检验两大类。正态分布特征:是一条对称曲线,关于均数对称。均数被称为正态分布的位置参数 单峰,均值出最高 标准差决定线峰的矮阔与尖峭,标准差越大,个体差异越大,线峰越矮阔。 向左右延申,横轴为渐近线。 一个标准差范围下曲线面积为68% 约95%的个体取值与平均数的距离在...原创 2018-09-05 17:26:11 · 4074 阅读 · 0 评论