精选 | 2018年2月R新包推荐

最新推荐文章于 2024-06-16 09:45:09 发布

R语言中文社区

最新推荐文章于 2024-06-16 09:45:09 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/kMD8d5R/article/details/79765529

版权

作者：Joseph Rickert

翻译：黄小伟，先后从事游戏、社交及金融数据研究及应用，目前就职网易杭州

2018年2月份，共有171个R新包收录于CRAN，本篇选摘了其中40个新包加以功能简述，主要包括以下几个类别：计算方法、数据、金融、科学、统计、时间序列和工具。

一. 计算方法

1. adnuts : 针对ADMB和TMB模型，提供了Hoffman和Gelman（2014）NUTS算法的实现.

2. CholWishart : 提供了针对几种分布的抽样函数，如威沙特分布（Wishart）随机变量的斯基（Cholesky）因式分解、反威沙特分布（Wishart）和反威沙特分布随机变量的斯基（Cholesky）分解.

3. particles : 基于particles库的实现方法，提供模拟2D空间中粒子运动的功能.

4. rosqp : 支持与OSQP求解程序绑定，来解决稀疏凸二次规划问题.

5. SolveLS : 实现包括Jacobi、Gauss-Seidel、连续过度松弛、SSOR和非平稳Krylov子空间在内的一些方法.

二. 数据

1. Cluster.OBeu : 对于OpenBudgets数据可视化问题，提供部分函数用于估计和返回其所需的相关参数.

2. photobiologySun : 提供外星太阳光谱辐照度、地平面太阳光谱辐照度的数据.

3. SympluR : 通过访问Symplur接口，提供了对医疗社会图（Healthcare Social Graph）进行数据分析的功能.

4. totalcensus : 允许用户从美国人口普查局（ Census Bureau）下载摘要文件，并支持从人口普查和美国社区调查数据库（1年和5年）中获取数据.

三. 金融

1. estudy2 : 实现了事件研究模型，包括收益率估计和其他经典模型.

四. 机器学习

1. DALEX : 提供各种解释器，帮助理解机器学习模型中输入变量与模型输出之间的关联关系.

2. forestControl : 借助Konukoglu和Ganz（2015）所提供的方法，在随机森林的频率选择中控制假阳性率.

3. kmed : 基于Park和Jun（2009）的方法，实现了基于距离的k-medoids聚类算法，并通过重新排序矩阵算法生成热图来验证聚类簇.

4. lolR : 在进行监督学习技术时，对于维度超过样本大小的情况，实现了最佳低秩投影算法，从而获得数据的较低维表示.

5. projpred : 提供了为广义线性模型进行投影预测特征选择的方法（Piironen and Vehtari (2017)），该包与rstanarm兼容.

6.RGF : 提供了Python包-Regularized Greedy Forest的封装，并提供了该方法的一个多核实现算法FastRGF.

五. 科学

1. cRegulome : 提供方法来构建预计算的转录因子或microRNA（基因相关）的SQLite数据库文件，数据源于Cistrome和miRCancerdb数据库.

2. CENFA : 提供针对空间数据气候和生态因素分析的工具，包括对气候变化引起的物种敏感性、暴露、脆弱性等变化的空间数据可视化.

3. detectRUNS : 提供滑动窗口（Purcell等（2007））和连续运行（Marras等（2015））等方法，检测二倍体基因组中纯合性和杂合性的运行.

六. 统计

1. cosa : 提供广义约束最优样本分配框架，实现了两组多水平回归间断研究和连续结果的多层随机试验.

2. DirectEffects : 在将潜在介体固定到特定值时，提供函数来估计受控治疗的直接效应，从而实现连续的g-estimation估计器（Vansteelandt (2009) 和 Acharya et al (2016).

3. dnr : 针对建立在指数随机图模型(ERGM)框架上的动态网络，提供了适合时滞模型的函数.

4. geozoning : 提供用于评估分区质量的分区方法和数字标准.

5. GpGp : 提供对高斯过程进行预测和条件模拟的功能，并提供对于欧几里德域和球体空间的空间数据、时空数据的协方差函数.

6. idealstan : 提供项目响应理论(IRT)的概念点扩展及维度缩减方法.

7. kdensity : 提供使用参数初值和不对称内核进行单变量非参数密度估计的方法.

8. NetLogoR : 在NetLogo框架下，提供基于agent-based模型的函数.

9. riskyr : 提供以概率或频率来表达风险相关信息的功能，使风险读写的教学和培训更加透明.

10. rsimsum : 提供汇总模拟结果的功能，并用于计算蒙特卡罗标准误差.

11. SimCorrMix : 提供生成具有特定相关矩阵的连续（正态、非正态或混合分布）、二元、有序变量的方法，或具有混合分布的连续变量的方法.

12. tree.bins : 允许用户通过从函数：rpart()（rpart包）派生的决策树方法，对因子变量进行重新分类（ Hastie et al (2009)）.

七. 时间序列

1. segclust2d : 为二元时间序列的分割、联合分割/聚类提供了两种方法，分割方法是Lavielle’s方法的二元扩展（Lavielle (1999) 和Lavielle (2005)）.

2. tstools : 支持绘制官方统计时间序列，可以便捷的增加图例、高亮窗口、带有正负贡献的堆积条形图及其他选项.

八. 工具

1. codemetar : 支持自动生成、解析和修改codemeta.json文件.

2. knitrProgressBar : 提供一个类似于dplyr的进度条，支持将进程写出到各种位置，包括stdout()、stderr()等.

3. msgpack : 对messagepack数据格式提供了基于C的编码器和流式解码器.

4. pmatch : 实现类型构造和模式匹配.

5. shinyalert : 提供了在Shiny中创建漂亮的弹出消息（模态）的功能，这些消息可能包含文本、图像、确定/取消按钮，用于获取用户响应的输入，同时还可支持更多自定义选项.

6. trackr : 提供部分函数，以支持自动注释带有相关性描述和出处相关的R对象，并提供用于组织、检索和询问这些对象的系统.

课程推荐

《kaggle十大案例精讲课程》提供R代码+数据集+详细代码注释+老师讲解PPT！综合性的提高你的数据能力，数据处理+数据可视化+建模一气呵成！

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘
回复 Kaggle案例  Kaggle十大案例精讲（连载中）
回复文本挖掘   手把手教你做文本挖掘
回复可视化   R语言可视化在商务场景中的应用
回复大数据         大数据系列免费视频教程
回复量化投资      张丹教你如何用R语言量化投资
回复用户画像      京东大数据，揭秘用户画像
回复数据挖掘     常用数据挖掘算法原理解释与应用
回复机器学习人工智能系列之机器学习与实践
回复爬虫            R语言爬虫实战案例分享