数据分析
文章平均质量分 89
moxigandashu
这个作者很懒,什么都没留下…
展开
-
统计学中的基本概念
《商务与经济统计学 》读书笔记一. 统计学思维 1. 统计学几个基本概念 描述统计 和 推断统计(统计的两大应用)描述统计(descriptive statistics):利用数字或者图标的方法,寻找数据的规律,总结其中的信息,以恰当的方式展示这些信息。推断统计(inferential statisticss):利用样本数据信息,对总体情况估计、推断、预测或原创 2016-05-12 17:33:47 · 6614 阅读 · 0 评论 -
Excel实战:时间转换、字符串拆分和多条件判断
本文通过通话记录数据判断拨打国内电话还是国际电话的例子,介绍了时间转换函数date,字符串拆分函数mid,条件判断函数if,以及透视表的分类汇总功能。原创 2017-09-20 16:19:05 · 3710 阅读 · 0 评论 -
机器学习之朴素贝叶斯(NB)分类算法与Python实现
朴素贝叶斯(Naive Bayesian)是最为广泛使用的分类方法,它以概率论为基础,是基于贝叶斯定理和特征条件独立假设的分类方法。文章总结在学习《机器学习实战》过程中的心得体会,对朴素贝叶斯的原理和Python实现方法进行了归纳总结。原创 2017-05-09 23:22:32 · 25509 阅读 · 9 评论 -
概率论中基本概念回顾
概率论和统计学恰好是两个相反的概念,统计学是抽取部分样本进行统计来估算总体的情况,而概率论是通过总体情况来估计单个事件或者部分事情的发生情况。笔者回顾统计学中概率论部分的基本概念。原创 2016-05-17 18:40:35 · 4575 阅读 · 0 评论 -
机器学习之决策树(ID3)算法与Python实现
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。原创 2017-05-07 16:48:52 · 19879 阅读 · 8 评论 -
机器学习之k-近邻(kNN)算法与Python实现
k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。一 k-近邻kNN算法概述概念特点kNN算法流程二 Python算法实现KNN算法分类器kNN算法用于约会网站配对KNN算法用于手写识别系统一 k-近邻(kNN)算法概述1.概念kNN算法的原创 2017-05-04 17:01:17 · 22892 阅读 · 5 评论 -
R语言基础画图/绘图/作图
语言免费且开源,其强大和自由的画图功能,深受广大学生和可视化工作人员喜爱。这篇文章对如何使用R语言作基本的图形,直方图,点图,饼状图以及箱线图进行简单介绍。原创 2016-11-29 21:34:14 · 74448 阅读 · 1 评论 -
数据挖掘的基本概念:数据库、数据仓库、机器学习,统计学
“数据挖掘“(Data Mining)又被称为“数据中的知识发现”(KDD),顾名思义,也就是通过数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等一些列步骤,对数据进行分类、聚类,发现其中的关联关系或者离群点,来发现新的知识。原创 2016-09-24 20:01:07 · 3817 阅读 · 0 评论 -
单样本和两样本的统计推断:置信区间和假设检验
根据样本可以推断总体均值,总体比例,总体方差等的置信区间,并对假设进行检验。其中,样本按照来源可以分为单样本和两样本,按照样本容量大小可以分为大样本容量和下样本容量,根据中心极限定理,大样本容量下的总体均值、总体比例的抽验分布近似正态分布,而小样本容量下的抽样分布一般采t分布。原创 2016-06-12 20:44:17 · 18538 阅读 · 0 评论 -
Stata基本功能及其函数实现
Stata简介:Stata使用简单,功能强大,是数据分析中常用的统计计量软件。本人使用的是Stata14,如若需要,可评论留言!1 Stata基本描述1.1主窗口 如图所示,Stata大致可以分为五个部分。 最上面是菜单栏,或者成为工具栏,功能栏,包括file,Edit,Data,Graphics,Statistics,User,Window,Help八个主要菜单,其中每个菜单下又原创 2016-06-28 11:30:27 · 47263 阅读 · 6 评论 -
样本统计量与总体的关系,抽样分布的概念性质
本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。2 抽样分布基本概念 参数(parameter):参数是对总体的数值描述,因为是总体,所以值经常是未知的。 样本统计量(sample statistics):样本的数值描述,利用样本计算而来。常见的参数和样本统计量如下表所示。总体参数样本统计量均值μ\mux¯\bar{x}中位数η\etam转载 2016-06-08 11:39:25 · 15692 阅读 · 0 评论 -
统计学:离散型和连续型随机变量的概率分布
1. 离散型和连续型随机变量的定义离散型随机变量(discrete random variable):取值是可数的个值的随机变量, 比如投掷一枚骰子的朝上的点数,可能是1,2,3,4,5,6;比如南京大学四食堂吃饭的人数,可能是0,1,2···。 连续型随机变量(continuous random variable):取值是一个区间中的任意一点(也就是不可数)的随机变量,比如南京大学同学身高。翻译 2016-05-18 11:16:58 · 41361 阅读 · 3 评论 -
图形和数值的数据集描述方法
图形方法对数据集的描述1. 条形图(bar graph) 条形图一般横向表示类别(class),纵向表示该类别所对应的类别频率(class frequency)。 2. 饼状图(pie graph) 饼状图是一个圆周,每个类别对应的扇形面积大小和类别相对频率(class relative frequency)成比例。 3. 帕累托直方图(pareto diagram) 帕原创 2016-05-12 20:08:04 · 3644 阅读 · 0 评论 -
机器学习之Logistic回归与Python实现
logistic回归是一种广义的线性回归,通过构造回归函数,利用机器学习来实现分类或者预测。一 Logistic回归概述1.1 分类函数1.2 Cost函数1.3 梯度上升法求J(w)J(w)J(w)最大值二、Python算法实现2.1 梯度上升法求最佳回归系数2.2 算法改进三 实例3.1 通过logistic回归和氙气病症预测马的死亡率...原创 2017-06-01 15:42:03 · 17341 阅读 · 2 评论