统计学
文章平均质量分 88
小果一粒沙
To be brave.
展开
-
Task 08(树模型组队总结
这次的团队学习,我学习到了什么?理论上的从基础模型树模型到集成模型Bagging, Boosting和stacking以及blending,学起来感觉特别地舒服。从信息论到树的生成,从信息熵到gini指数,从只能进行分类的ID3, C4.5到既能分类又能回归的CART, 树的预剪枝和后剪枝,系统地学习了及模型的由来,过程,以及各个模型的特点。从为什么要集成到如何集成,学习到了集成学习带来的好处,集成学习的每一步更新步骤,学习到了所谓的切入点。再详细了解了RandomForest, AdaBoost,原创 2021-11-08 23:03:42 · 86 阅读 · 0 评论 -
R语言--数据挖掘7--预测性建模:线性回归
文章目录预测性建模之线性回归模型假设模型理论结果模型诊断变量选择:案例分析数据描述查看数据基本特征及其分布模型拟合:模型检验:检验残差异常值的检验:自相关性检验:多重共线性的检验:总结参考代码本次报告的主要目的是结合回归分析的理论来对实际mlr数据进行分析,并且分析得到的结果。本次报告的主要内容:介绍原理,介绍回归分析的原理。案例分析,结合mlr.csv中的数据,使用回归模型来拟合。总结,总结回归的效果。参考代码预测性建模之线性回归模型假设随机误差零均值、同方差、正态性,且各个原创 2021-05-10 15:01:08 · 6320 阅读 · 0 评论 -
SARIMA季节项时间序列分析流程+python代码
数据数据网站:National Aeronautics and Space AdministrationGoddard Institute for Space Studies主要分析的是北美陆地表面温度。训练数据:1990.1-2019.12.开只选取了120即10的数据来进行分析,但是到最后发现模型有很多的波动之后,去问老师,老师说这是数据太少导致波动太大造成的,所以建议我们再多训练一些数据。就之后进行模型的定阶而言,至少需要三四百的数据。最后我们选取了360个数据,即30年的数据。关于模型原创 2021-01-06 21:50:07 · 22566 阅读 · 29 评论 -
变换后的ARMA新息递归预报--python索引踩坑记
有时候按照课本来打公式,很多次都会出现程序的索引跟课本上的索引不一致的情况,这次,我在这个地方陷了两天,气死我了!但是还好,问题终于解决,不是我的问题,是课本的问题。不过还是想把这个思考的过程记录下来,希望以后能够在索引上面少花一些时间。介绍python常见的索引方式自带列表:索引是从0开始的,如果你有li[a:b]的形式,那么最终取出来的数是li[a], li[a+1], ..., li[b-1].还有一个非常坑的地方。li = [1, 2, 3]li_2to5 = li[2:5]print原创 2020-12-23 13:45:25 · 233 阅读 · 0 评论 -
Python编程--利用ENGS求最佳样本容量n--Bayes-5.18
题目:某上考虑是否向一县办厂订购一种家用电器(以下简称电器)。该厂生产的电器有一等品和二等品两个等级,一等品与二等品的数量之比有1:1和2:1两种可能,其概率分别为0.45和0.55。如果买到的是一等品,与一般市场价格相比较,每只可赚10元。如果买到二等品,每只要亏15元。假如该厂允许在一批电器中抽取若干只进行检验,根据抽样结果决定是否订购该批(900只)电器。但抽样总的费用为每只20元。这时商店必须考虑多少只最合算?求上界n∗≤先验EVPI−CfCvn^* \le \frac{\text{原创 2020-11-19 23:56:11 · 1088 阅读 · 2 评论 -
概统(第七章-参数估计
主要内容Point EstimationInterval estimationconnection and differenceunbaised有效性相合性什么是参数估计?点估计和区间估计,一个是用一个数值来估计未知参数,一个是使用一个区间来估计未知参数的可能取值范围。为什么要在点估计的基础之上引入一个区间估计呢?因为我们不仅希望有一个具体的值,还希望有一个估计的区间,区间有精...原创 2020-08-26 18:29:25 · 754 阅读 · 0 评论 -
统计学原理--总论(统计学的对象和方法)基本概念通俗理解
统计学统计学是研究客观现象的统计规律性的科学,是关于数据搜集、整理、归纳和分析的方法论科学。当然,因为统计学是一门方法论科学,你也可以将里面研究客观现象的统计规律性的方法用于去发现生活中的另类规律性。比如,当某个随机试验(我们现实生活中做某件事情)做多了,我们就可以发现其中的一些规律性,可以利用这些规律性来帮助我们更好的学习与生活;如何检验你对现实规律性的认知是否正确呢?搞一个假设检验嘛,在假设检验中对于总体分布的假设可以适当的宽松一点,也可以得到你想要的结论。统计学的性质数量性、总体性和变异性。原创 2020-08-23 10:47:56 · 3741 阅读 · 0 评论 -
概率论与数理统计(第六章-数理统计的基本概念
主要内容StatisticsSufficient StatisticsCommon Statistics and DistributionsNormal distributiont distributionkafang DistributionF distribution统计学的基本概念,是利用样本来推断总体其中所会涉及到的一些概念。学习过概率论的基础知识之后,我们就开始对抽样进行...原创 2020-07-12 21:13:49 · 668 阅读 · 0 评论 -
概率论与数理统计(第五章-大数定律
主要内容依概率收敛依照分布收敛大数定律Chebyshev inequalityMarkov Law of Large numbersChebyshev Law of Large NumbersBernoullixinqin以上大数定律的联系与区别中心极限定理伯路利中心极限定理列维-林伯格中心极限定理引入大数定律,所谓的大数,是指很多的数,很多的试验次数,...原创 2020-07-04 23:22:40 · 2164 阅读 · 0 评论 -
EM算法例子简单理解(例题+基本思想+python实现
是研究生复试的时候问到了一个问题,我不会,导致复试成绩不好。复试完了,打算好好理解一下,于是有了下文:简介极大似然估计根据样本的信息,求得未知参数的估计。主要思想:样本信息出现的概率最大,也就是说我们想要找到一个参数,使得我们所有的样本出现的概率最大。步骤:写出关于似然函数。取对数(方便后来求极值运算)。对未知参数求偏导,令其为0(求极值),求得参数值为极大似然估计值。补充:当然,有的并不能够使用数学上求极值的方法来求得极大似然估计值,可以使用单调性求得。不管是哪种解法,都是要求找.原创 2020-06-19 00:42:47 · 6820 阅读 · 2 评论 -
概率论与数理统计(第四章-数字特征
主要内容:矩期望方差协方差相关系数变异系数偏度、峰度为什么要研究随机变量的数字特征?因为我们有的时候并不仅仅只关注随机变量的分布,很多时候仅仅知道它的分布就可以进行分析。例如我们一般只想知道一个随机变量的一般水平,也就是随机变量的平均水平。对于小麦的产量,我们一般只想知道它的一般产量,除此之外,可能还想知道不同地区小麦产量的波动变化情况等。这里就需要引进新的特征来帮助我们获...原创 2020-06-17 23:17:07 · 992 阅读 · 0 评论 -
概率论与数理统计(第三章-多维随机变量及其分布
关于二维,有新引入了边缘分布,条件分布和独立性等概念,其实也就是将原来一个变量变成了两个变量,需要我们考虑两者的影响。跟之前一元的联系与区别:研究了边缘分布引入条件分布由于条件概率,引入独立性概述之瞎逼逼研究一个或者多个随机变量,想要研究它的统计规律性,因为变量的统计规律性可以由其分布函数完全决定,所以跟一维随机变量一样,我们需要研究随机变量的分布函数。分布函数,跟一维的分布...原创 2020-05-28 11:18:23 · 1935 阅读 · 2 评论 -
概率论与数理统计(第二章---随机变量及其分布函数
简单介绍一元多元随机变量的内容一下所有的内容都是对应到这个来写的。这是我的问题,也是学习概率论之后应该掌握的问题。一维的为什么要引进随机变量?什么是随机变量?随机变量的分类?随机变量和统计规律性的关系?随机变量的分布函数常见随机变量的分布函数随机变量函数的分布函数多维的多维随机变量的分布函数为什么要有多维的随机变量函数?多维随机变量分布函数和一维随机变量分布函数之...原创 2020-05-26 16:53:07 · 4397 阅读 · 0 评论 -
概率论与数理统计(第一章--随机事件及其概率 + 课本内容消化输出
统计学是啥?用啥来研究?为什么要用它来研究?原创 2020-05-20 10:53:24 · 892 阅读 · 0 评论 -
单因素方差分析简单理解-结合假设检验(是什么+基本思想+步骤
本来我想简单理解,用一点话就讲完的,但是讲着讲着发现,几句话根本就不能够帮助我简单理解啊,所以就写了很多…前言在网上查看了很多的方法分析的步骤,自己看书觉得书上写的也不太清楚,作罢,自己结合假设检验的原理以及步骤写出了方差分析的基本步骤(主要是自己的理解。方差分析是什么用比较通俗的话来说就是,利用方差来分析一些问题,什么问题呢?主要是用来研究在不同组的数据对我们所研究的一个指标的影响是...原创 2020-05-04 11:49:19 · 9021 阅读 · 1 评论 -
文本分类(四)--分类好坏的评价
所使用的主要有四个评价的标准,根据不同的分类情况,有的单独分析,有的综合着来看。这四个评估标准分别是Accuracy, Precision, Recall, f1-score.我自己对他们的理解:Accuracy(准确率):(TP+TN)/(TP+TN+FP+FN)综合分类正确的概率,综合是指正类和负类被分类正确的概率Precision(精确率):TP/(TP+FP) or TN/(T...原创 2019-05-26 17:21:28 · 3155 阅读 · 1 评论 -
文本分类(三)--对已经处理好的数据使用KNN、Naive Bayes、SVM分类方法
注:所有的数据已经经过minmaxscaler标准化为【0,1】区间的值KNN根据距离来分类。给定一个K值,在待分类的样本点中找到已经分类的K个点,K中哪一类越多,则就将其分为哪一类。别人说的是近朱者赤近墨者黑,我的理解就是我距离你越近,则我属于你的置信概率就越大。具体参考资料:Python之Sklearn使用教程K最近邻算法(KNN)—sklearn+python实现机器学习(一)...原创 2019-05-26 11:30:40 · 3675 阅读 · 0 评论 -
召回率-精确率简单理解
参考百度百科召回率召回率和精确率是评价一个样本分类好坏的两项指标。分类竟然也于统计学有关系!统计学-数理统计部分知识回顾:在进行假设检验的时候,有一个四象限。有两个指标,一个是否接受H0,另一个是真实的情况。看来万物自有相通之处啊计算公式简单理解:精确率、准确率:(TP+TN)/(TP+TN+FP+FN)被分类器识别为正(positive)的概率精确率、查准率:TP/(TP+...原创 2019-05-07 18:03:53 · 3817 阅读 · 0 评论