精选 | 2018年2月R新包推荐

作者:Joseph Rickert

翻译:黄小伟,先后从事游戏、社交及金融数据研究及应用,目前就职网易杭州


2018年2月份,共有171个R新包收录于CRAN,本篇选摘了其中40个新包加以功能简述,主要包括以下几个类别:计算方法、数据、金融、科学、统计、时间序列和工具。


一. 计算方法

1. adnuts : 针对ADMBTMB模型,提供了Hoffman和Gelman(2014)NUTS算法的实现.

2. CholWishart : 提供了针对几种分布的抽样函数,如威沙特分布Wishart)随机变量的斯基(Cholesky)因式分解、反威沙特分布Wishart)和反威沙特分布随机变量的斯基(Cholesky)分解.

3. particles : 基于particles库的实现方法,提供模拟2D空间中粒子运动的功能.

4. rosqp : 支持与OSQP求解程序绑定,来解决稀疏凸二次规划问题.

5. SolveLS : 实现包括Jacobi、Gauss-Seidel、连续过度松弛、SSOR和非平稳Krylov子空间在内的一些方法.


二. 数据

1. Cluster.OBeu : 对于OpenBudgets数据可视化问题,提供部分函数用于估计和返回其所需的相关参数.

2. photobiologySun : 提供外星太阳光谱辐照度、地平面太阳光谱辐照度的数据.

3. SympluR : 通过访问Symplur接口,提供了对医疗社会图(Healthcare Social Graph)进行数据分析的功能.

4. totalcensus : 允许用户从美国人口普查局( Census Bureau)下载摘要文件,并支持从人口普查和美国社区调查数据库(1年和5年)中获取数据.


三. 金融

1. estudy2 : 实现了事件研究模型,包括收益率估计和其他经典模型.


四. 机器学习

1. DALEX : 提供各种解释器,帮助理解机器学习模型中输入变量与模型输出之间的关联关系.

2. forestControl : 借助KonukogluGanz(2015)所提供的方法,在随机森林的频率选择中控制假阳性率.

3. kmed : 基于ParkJun(2009)的方法,实现了基于距离的k-medoids聚类算法,并通过重新排序矩阵算法生成热图来验证聚类簇.

4. lolR : 在进行监督学习技术时,对于维度超过样本大小的情况,实现了最佳低秩投影算法,从而获得数据的较低维表示.

5. projpred : 提供了为广义线性模型进行投影预测特征选择的方法(Piironen and Vehtari (2017)),该包与rstanarm兼容.

6.RGF : 提供了Python包-Regularized Greedy Forest的封装,并提供了该方法的一个多核实现算法FastRGF.


五. 科学

1. cRegulome : 提供方法来构建预计算的转录因子或microRNA(基因相关)的SQLite数据库文件,数据源于CistromemiRCancerdb数据库.

2. CENFA : 提供针对空间数据气候和生态因素分析的工具,包括对气候变化引起的物种敏感性、暴露、脆弱性等变化的空间数据可视化.

3. detectRUNS : 提供滑动窗口(Purcell等(2007))和连续运行(Marras等(2015))等方法,检测二倍体基因组中纯合性和杂合性的运行.

六. 统计

1. cosa : 提供广义约束最优样本分配框架,实现了两组多水平回归间断研究和连续结果的多层随机试验.

2. DirectEffects : 在将潜在介体固定到特定值时,提供函数来估计受控治疗的直接效应,从而实现连续的g-estimation估计器(Vansteelandt (2009) 和 Acharya et al (2016).

3. dnr : 针对建立在指数随机图模型(ERGM)框架上的动态网络,提供了适合时滞模型的函数.

4. geozoning : 提供用于评估分区质量的分区方法和数字标准.

5. GpGp : 提供对高斯过程进行预测和条件模拟的功能,并提供对于欧几里德域和球体空间的空间数据、时空数据的协方差函数.

6. idealstan : 提供项目响应理论(IRT)的概念点扩展及维度缩减方法.

7. kdensity : 提供使用参数初值和不对称内核进行单变量非参数密度估计的方法.

8. NetLogoR : 在NetLogo框架下,提供基于agent-based模型的函数.

9. riskyr : 提供以概率或频率来表达风险相关信息的功能,使风险读写的教学和培训更加透明.

10. rsimsum : 提供汇总模拟结果的功能,并用于计算蒙特卡罗标准误差.

11. SimCorrMix : 提供生成具有特定相关矩阵的连续(正态、非正态或混合分布)、二元、有序变量的方法,或具有混合分布的连续变量的方法.

12. tree.bins : 允许用户通过从函数:rpart()rpart包)派生的决策树方法,对因子变量进行重新分类( Hastie et al (2009)).


七. 时间序列

1. segclust2d : 为二元时间序列的分割、联合分割/聚类提供了两种方法,分割方法是Lavielle’s方法的二元扩展(Lavielle (1999) 和Lavielle (2005)).

2. tstools : 支持绘制官方统计时间序列,可以便捷的增加图例、高亮窗口、带有正负贡献的堆积条形图及其他选项.


八. 工具

1. codemetar : 支持自动生成、解析和修改codemeta.json文件.

2. knitrProgressBar : 提供一个类似于dplyr的进度条,支持将进程写出到各种位置,包括stdout()、stderr()等.

3. msgpack : 对messagepack数据格式提供了基C的编码器和流式解码器.

4. pmatch : 实现类型构造和模式匹配.

5. shinyalert : 提供了在Shiny中创建漂亮的弹出消息(模态)的功能,这些消息可能包含文本、图像、确定/取消按钮,用于获取用户响应的输入,同时还可支持更多自定义选项.

6. trackr : 提供部分函数,以支持自动注释带有相关性描述和出处相关的R对象,并提供用于组织、检索和询问这些对象的系统.


课程推荐

《kaggle十大案例精讲课程》提供R代码+数据集+详细代码注释+老师讲解PPT!综合性的提高你的数据能力,数据处理+数据可视化+建模一气呵成!

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值