数据分析
文章平均质量分 87
数据分析
梅森上校
十多年软件行业从业经验,热爱技术,精于项目管理和研发团队建设。闲暇至于,喜欢欣赏音乐,看看电影;摆弄摆弄茶道,让身心得以调整和休息。
展开
-
数据挖掘(Data Mining)和数据分析(Data Analysis)的对比
数据挖掘和数据分析现在信息世界中,每天生成的数据量呈指数级增长。获取这些数据的过程并不复杂,因为可以使用的方法很多。然而,从这些数据中获取有意义的信息是非常复杂和耗时的。收集的数据通常存储在数据仓库中,数据仓库是保存从各种来源收集的数据的地方。其中一些来源包括公司数据库、外部来源的数据和内部系统的汇总信息。对这些数据的分析需要统计分析、简单的查询和报表、更复杂的多维分析和数据挖掘。...原创 2020-05-03 12:39:34 · 3373 阅读 · 0 评论 -
统计学、统计学习和统计推断之间的关系
统计学、统计学习和统计推断之间的关系什么是统计学?百度百科的定义:统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并...原创 2020-05-03 12:21:27 · 3351 阅读 · 0 评论 -
机器学习(Machine Learning)和传统的数据统计分析(Data Statistics)有什么区别?
机器学习(Machine Learning)和传统的数据统计(Data Statistics)有什么区别?机器学习强调预测 通过预测性能评估结果 关注过度拟合而不是模型本身的复杂性 注重表现 通过在新数据集上的性能获得可概括性 通常,没有指定超人口模型 对性能和健壮性的关注传统统计分析强调超总体推断 关注a-先验假设 更简单的模型优于复杂的模型(简约),即使更复杂的模...原创 2020-05-03 11:50:17 · 2048 阅读 · 0 评论 -
Data Science 到底是什么?
最近被问到了一个问题:Data Science是干什么的?尽管一直在说Data Science,但是还真的没有深入的、认真的研究过它的起源。Data Science,数据科学,一般的解释是:数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。简单来讲:数据科学是一门将数据变得有用的学科。发展过程这里:http:...原创 2020-05-02 18:27:22 · 13671 阅读 · 0 评论 -
[统计学笔记] (十三)指数分析(2)
(十三)指数分析(2)指数体系与因素分析指数体系是指由三个或三个以上的具有内在联系的指数构成的有一定数量对等关系的整体。指数体系的形式不是随意的,而是由现象间客观存在的必然联系决定的。例如,产品产值=产品产量×产品价格商品销售额=商品销售量×商品价格全员劳动生产率=生产成果×职工(平均)人数……上述这些现象在数量上存在的联系,表现在动态变化上,就可以形成如下指数体系:...原创 2020-05-02 00:28:57 · 7862 阅读 · 0 评论 -
[数据挖掘与预测分析] 单变量统计分析思考问题
单变量统计分析思考问题1. 解释统计推理的含义统计推理亦称“统计概括”。由样本具有某属性推出总体具有某属性的推理。如为了解全国住户对电视机的需要量,就根据收入的多少等情况而把住户分成若干类(若干层次),从每类中再随机抽出一定数量的住户作为样本进行调查,将所得需求量的结果,应用统计学中的计算方法而推出全国的需求量。统计推理是由部分推出全部的推理,它的结论超出了前提所断定的范围,前提与...原创 2020-04-26 15:35:11 · 1546 阅读 · 0 评论 -
[统计学笔记] 参数估计和假设检验计算题精讲
参数估计和假设检验计算题精讲习题1设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600?解答:根据题意知:标准差,,,,令::;:;拒绝域为:由检验统计量:所以,应该接受:解答完毕。习题2某电器零件的平均电阻一直保持在2.64...原创 2020-04-25 23:46:28 · 3430 阅读 · 0 评论 -
[统计学笔记] (十三)指数分析(1)
(十三)指数分析统计指数简称指数,有广义和狭义之分。广义地讲,任何两个数值对比形成的相对数都可以称为指数;狭义地讲,为了反映某一社会经济现象而产生的两组有关联的数值对比形成的相对数称为指数。指数分析法是利用指数体系分析各影响因素变动对总指数的影响方向和程度,以及各因素对总指标的影响数额的一种分析方法。指数是反映复杂的社会现象受多种因素而变动的相对数,它能够表明所研究社会现象量的方面在时...原创 2020-04-24 00:37:44 · 13076 阅读 · 0 评论 -
[统计学笔记] 方差分析表的解读
方差分析表的解读方差分析表(analysis of variance table)是指为了便于进行数据分析和统计判断,按照方差分析的过程,将有关步骤的计算数据,例如差异来源、离差平方和、自由度、均方和F检验值等指标数值逐一列出,以方便检查和分析的统计分析表。利用 Excel 中数据分析的功能可以快速构造出方差分析表。方差分析表(Analysis of variance table)可以...原创 2020-04-23 23:19:50 · 52137 阅读 · 0 评论 -
[统计学笔记] 必须要掌握的统计学基本概念和术语(更新中)
必须要掌握的统计学基本概念和术语统计和处理数据是一门科学。统计学是收集、分析、表述和解释数据,并从数据中得出结论的科学。要学好统计学必须掌握和理解下面的基本概念和术语:分类数据顺序数据数值型数据界面数据时间序列数据总体和样本统计量离散型变量和连续型变量概率抽样和非概率抽样简单随机抽样抽样误差和非抽样误差频数和频数分布列联表众数、中位数...原创 2020-04-23 00:26:37 · 1213 阅读 · 0 评论 -
[统计学笔记] 统计学中的相关关系和三大相关系数
统计学中的相关关系和三大相关系数相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现...原创 2020-04-22 21:50:24 · 25146 阅读 · 0 评论 -
什么是抽样误差?
什么是抽样误差?在抽样检查中,由于用样本指标代替全及指标所产生的误差可分为两种:一种是由于主观因素破坏了随机原则而产生的误差,称为系统性误差;另一种是由于抽样的随机性引起的偶然的代表性误差。抽样误差仅仅是指后一种由于抽样的随机性而带来的偶然的代表性误差,而不是指前一种因不遵循随机性原则而造成的系统性误差。总的说来,抽样误差是指样本指标与全及总体指标之间的绝对误差。在进行抽样检查时不可避免会...原创 2020-04-22 01:36:53 · 10430 阅读 · 0 评论 -
什么是抽样平均误差?
什么是抽样平均误差?抽样平均误差是抽样平均数(或抽样成数)的标准差,它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。由于从一个总体可能抽取多个样本,因此抽样指标(如平均数、抽样成数等),就有多个不同的数值,因而对全局指标(如总体平均数、总体成数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。抽样平均数(或抽样成数)的标准差实际上反映了抽样平均...原创 2020-04-22 01:00:35 · 10153 阅读 · 0 评论 -
统计学中的标准差(SD)和 平均值的标准误差(SEM)的区别
统计学中的标准差(SD)和 平均值的标准误差(SEM)的区别先来看一个解释:The standard deviation (SD) represents variation in the values of a variable, whereas the standard error of the mean (SEM) represents the spread that the mean...原创 2020-04-22 00:28:10 · 57142 阅读 · 0 评论 -
什么是统计学中的 Standard Error ( SE )?
什么是统计学中的 Standard Error ( SE )?我们来看一段英文解释:The standard deviation of a sampling distribution is called as standard error. In sampling, the three most important characteristics are: accuracy, bias and...原创 2020-04-22 00:18:12 · 69726 阅读 · 0 评论 -
[统计学笔记] (十)一元线性回归
(十)一元线性回归原创 2020-04-18 10:40:44 · 9008 阅读 · 0 评论 -
[统计学笔记] (十二)时间序列分析和预测
(十一)时间序列分析和预测时间序列数据用于描述现象随时间发展变化的特征。时间序列(times series)是同一现象在不同时间的相继观察值排列而形成的序列。经济数据大多数以时间序列的形式给出。时间序列及其分解时间序列可以分为平稳序列和非平稳序列两大类。平稳序列是基本上不存在趋势的序列。这类序列中的各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存...原创 2020-04-18 00:18:40 · 18709 阅读 · 0 评论 -
[统计学笔记] 统计学计算题选讲(精华)
统计学计算题选讲第1题某班级学生物理课程考试成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 ...原创 2020-04-13 22:35:47 · 8641 阅读 · 0 评论 -
[统计学笔记] (八)分类数据分析
(八)分类数据分析首先思考问题:1. 为什么要对数据进行分类?如何对数据分类?2. 数据分类后,如何对分类数据进行分析?数据分类分类变量的结果表现为类别,例如:性别 (男, 女)各类别用符号或数字代码来测度使用分类或顺序尺度你吸烟吗? 1.是;2.否 你赞成还是反对这一改革方案?1.赞成;2.反对对分类数据的描述和分析通常使用列联表可使用检验统计...原创 2020-04-13 00:09:36 · 5099 阅读 · 0 评论 -
[统计学笔记] (十四)概率与概率分布
概率与概率分布概率是度量偶然事件发生可能性的数值。假如经过多次重复试验(用X代表),偶然事件(用A代表)出现了若干次(用Y代表)。以X作分母,Y作分子,形成了数值(用P代表)。在多次试验中,P相对稳定在某一数值上,P就称为A出现的概率。如偶然事件的概率是通过长期观察或大量重复试验来确定,则这种概率为统计概率或经验概率。研究支配偶然事件的内在规律的学科叫概率论。属于数学上的一个分支。概率论揭...原创 2020-04-12 19:35:49 · 4224 阅读 · 0 评论 -
[统计学笔记] (七) 假设检验
一个问题一个以减肥为主要目标的健美俱乐部声称,参加其训练班至少可以使减肥者平均体重减重8.5kg以上。为了验证该宣称是否可信,调查人员随机抽取了10名参加者,得到他们的体重记录如下表:在 的显著性水平下,调查结果是否支持该俱乐部的声称?我们怎么来回答这个问题呢?考虑一下上面的表格,换一种表现形式如下(样本差值计算表):下面计算差值均值和差值标准差:...原创 2020-04-12 01:25:09 · 4890 阅读 · 0 评论 -
[统计学笔记] (六) 参数估计
参数估计 (Parameter Estimation)人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。参数估计(Parameter Est...原创 2020-04-11 22:44:51 · 8816 阅读 · 1 评论 -
[统计学笔记](五)统计量及其抽样分布
抽样分布抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。从已知的总体中以一定的样本容量进行随机抽样,由样本的...原创 2020-04-11 12:14:58 · 14195 阅读 · 0 评论 -
[统计学笔记] (四)数据分布的数字特征
数据集中趋势在统计研究中,需要搜集大量数据并对其进行加工整理,大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势。这个集中趋势是现象共性的特征,也是现象规律性的数量表现。根据统计学知识,集中趋势指平均数,是一组数据中有代表性的值,这些数值趋向于落在数值大小排列的数据中心,被称为...原创 2020-04-10 22:35:08 · 21089 阅读 · 0 评论 -
[数据分析学习笔记] 数据预处理
数据分析学习笔记 —— 数据预处理数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。知识点总结如下图所示:数据预处理的主要过程数据清洗:主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。数据集成:将多个数据源合...原创 2020-04-07 22:30:50 · 1843 阅读 · 0 评论 -
[数据分析学习笔记] 数据探索分析(EDA)需要了解的统计学基础
Exploratory Data Analysis(EDA)Exploratory Data Analysis(EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,...原创 2020-04-05 22:36:44 · 5270 阅读 · 1 评论 -
[机器学习笔记] 用Python分析:红葡萄酒质量分析(数据探索)
用Python分析:红葡萄酒质量分析(数据探索)数据集:winemag-data_first150k.csv先来导入数据import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport statsmodels.api as smimport stat...原创 2020-04-05 03:10:08 · 12340 阅读 · 4 评论 -
[机器学习笔记] 数据标准化方法
数据标准化方法数据标准化在数据分析之前,我们通常需要先将数据标准化(Normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结...原创 2020-04-04 17:13:09 · 1121 阅读 · 0 评论 -
[统计学笔记九] 方差分析(ANOVA)
[统计学笔记九] 方差分析(ANOVA)方差分析(Analysis of Variance,简称ANOVA)方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类:一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分...原创 2020-03-22 02:32:25 · 27465 阅读 · 3 评论 -
[统计学笔记三] 整理和显示数据
[统计学笔记三] 整理和显示数据数据的预处理数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括:数据的审核、筛选、排序等。数据审核:就是检查数据中是否存在错误。包括:完整性审核和正确性审核。数据筛选:根据需要找出符合特定条件的某类数据。数据排序:按一定的顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。大家都比较熟悉的Excel...原创 2020-03-21 18:53:04 · 1323 阅读 · 0 评论 -
[统计学笔记](二)收集数据
[统计学笔记二] 收集数据数据是什么?数据、信息和知识被广泛的用于计算机科学领域。数据是信息的载体,信息是数据的语义解释。数据是得出结论的前提。信息是处理后的数据,为实际问题提供答案。当我们增加一种关系或者一个关联时,数据就成为信息。这种关联通过提供数据背景来完成。这各背景有助于我们回答数据相关的问题。数据有很多种表现形式,例如:CSV文件 数据库 文件格式(Excel...原创 2020-03-16 23:39:21 · 1822 阅读 · 0 评论 -
[统计学笔记] (一) 统计学的基本概念
[统计学笔记一] 统计学的基本概念原创 2020-03-16 00:09:38 · 6785 阅读 · 0 评论 -
[统计学笔记] 统计学学习笔记重点总结
写在前面的话这两年 Data Science 和 Data Scientist 是比较“火爆”的名词了,各大公司,不仅仅是IT&ICT类型的公司都在开展相关领域的工作,招聘和培养相应的人才。Data Science作为一个宽口径的新兴职业方向,充满了工作机会,同时,无论你是学什么专业出身的,都有新专业、新领域的知识要学。目前很多Data Scientists招聘广告里,对于求职者的专业...原创 2020-03-16 00:04:55 · 3376 阅读 · 0 评论 -
[数据分析学习笔记] 异常值分析方法
异常值分析方法什么叫异常值?异常值是由于系统误差、人为误差或者固有数据的变异使得他们与总体的行为特征、结构或相关性等不一样,这部分数据称为异常值。为什么要关注异常值?异常值检测在数据挖掘中有着重要的意义,比如如果异常值是由于数据本身的变异造成的,那么对他们进行分析,就可以发现隐藏的更深层次的,潜在的,有价值的信息。如何检测异常值?异常值检测的方法:1. 统计学方法对异常...原创 2020-03-15 14:21:35 · 3652 阅读 · 1 评论 -
[数据分析学习笔记] 数据分析必备的概率论和统计学知识
数据分析必备的概率论和统计学知识概率论基础1. 随机事件与概率随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}。仅含一个样本...原创 2020-03-14 21:53:13 · 1450 阅读 · 0 评论 -
[数据分析学习笔记] 数据挖掘建模过程
数据挖掘建模过程1. 确定数据挖掘的目标2. 数据取样3. 数据整理4. 构建数据模型5. 模型评价6. 模型应用1. 确定数据挖掘的目标针对具体的数据挖掘应用需求,首先要确定本次数据挖掘的目标是什么?系统完成之后能够达到什么样的效果?要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么?2. 数据取样在明确了需要进行数据...原创 2020-03-14 20:57:55 · 775 阅读 · 0 评论 -
[数据分析学习笔记] 数据分析处理流程
数据分析处理流程从业务系统抽取数据进行后续分析和处理流程原创 2020-03-10 23:55:19 · 205 阅读 · 0 评论