拓端研究室TRL
这个作者很懒,什么都没留下…
展开
-
R语言互联网金融下的中国保险业数据分析
随着人们对数据分析质量要求的提高以及科学软件的飞速发展, 利用统计软件解读数据渐渐成为了当今人们进行数据分析处理的常用方法。此报告尝试运用统计软件——R 语言对互联网金融下的中国保险业相关数据进行挖掘、 分析, 剖析中国保险市场发展的影响因素, 预测未来中国保险业及互联网保险的发展走势, 最后根据统计分析结果对互联网金融下的我国保险业的发展提出可行性建议。原创 2022-11-30 12:09:22 · 521 阅读 · 0 评论 -
R语言参数检验 :需要多少样本?如何选择样本数量
参数检验受制于数据属性的假设。例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。将正态分布拟合到采样均值为了研究满足学生t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布...原创 2019-06-12 14:20:37 · 4066 阅读 · 0 评论 -
R语言进行数值模拟:模拟泊松回归模型的数据
模拟回归模型的数据验证回归模型的首选方法是模拟来自它们的数据,并查看模拟数据是否捕获原始数据的相关特征。感兴趣的基本特征是平均值。我喜欢这种方法,因为它可以扩展到广义线性模型(logistic,Poisson,gamma,...)和其他回归模型,比如t-regression。这是Gelman和Hill在回归文本中的内容。1可悲的是,从R中回归模型模拟数据的默认方法错过什么人可能会考虑模型不确...原创 2019-06-12 14:18:21 · 3377 阅读 · 0 评论 -
R语言有RStan的多维验证性因子分析(CFA)
如果您已经熟悉RStan,那么您需要组合的基本概念是具有相关随机斜率和异方差误差的标准多级模型。我将R代码嵌入到演示中。所需的包是lavaan,lme4和RStan。我喜欢将大多数统计方法理解为回归模型。这样,很容易理解大量技术背后的主张。这是一种适用于多级,SEM和IRT模型的方法。在这里,我将重点关注验证性因子分析(CFA),因此我将首先从一个易于适用于任何多级回归软件的模型开发CFA...原创 2019-06-12 14:16:46 · 2569 阅读 · 1 评论 -
R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验分析案例报告
统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。什么是列联表?列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两个变量产生,每个变量有两个级别:组/观察 观察1 观察2 第1组 ñ1,1ñ1,1 ñ1,2ñ1...原创 2019-06-12 14:15:09 · 14961 阅读 · 1 评论 -
R语言高维数据的pca、 t-SNE算法降维与可视化分析案例报告
维度降低有两个主要用例:数据探索和机器学习。它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本。然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值)。对于机器学习,降维是有用的,因为在拟合过程中使用较少的特征时,模型通常会更好地概括。在这篇文章中,我们将研究三维降维技术:主成分分析(PCA):最流行的降维方法 内核PCA:PCA的一种变体,允许非线...原创 2019-06-12 14:13:29 · 6038 阅读 · 1 评论 -
R语言数据清理:视频游戏数据案例研究
Wesnoth之战是一款开源的回合制策略游戏。游戏世界很丰富,有几个派系,地图和数百个可用单位。在本教程中,您将学习如何将中等大小的数据集(如游戏元数据)转换为有用的格式,以便使用R进行进一步分析。您将了解整洁数据集遵循的关键原则,为什么跟踪它们有用,以及如何清理您给出的数据。整理也是了解新数据集的好方法。最后,在本教程中,您将学习如何编写一个函数,使您的分析看起来更清晰,并允许您以非常可...原创 2019-06-12 14:08:03 · 413 阅读 · 0 评论 -
卡尔曼滤波器:用R语言中的KFAS建模时间序列
于时间序列预测,ARIMA等传统模型通常是一种流行的选择。虽然这些模型可以证明具有高度的准确性,但它们有一个主要缺点 - 它们通常不会解释“冲击”或时间序列的突然变化。让我们看看我们如何使用称为卡尔曼滤波器的模型来潜在地缓解这个问题。时间序列我们以货币市场为例。货币对可能会有整体上升趋势,然后在抛售期间大幅下跌。传统的时间序列模型不一定能够立即解决这个问题,并且在考虑到趋势的突然变...原创 2019-06-12 14:06:49 · 2414 阅读 · 0 评论 -
R语言使用K-Means聚类可视化纽约市WiFi访问
可视化已成为数据科学在电信行业中的关键应用。具体而言,电信分析高度依赖于地理空间数据的使用。这是因为电信网络本身在地理上是分散的,并且对这种分散的分析可以产生关于网络结构,消费者需求和可用性的有价值的见解。数据为了说明这一点,使用k均值聚类算法来分析纽约市免费公共WiFi的地理数据。该数据集可从NYC Open Data获得。具体地,k均值聚类算法用于基于与特定提供商相关联的纬度和...原创 2019-06-12 14:04:31 · 1210 阅读 · 2 评论