作者:Joseph Rickert
翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞数据分析团队,欢迎加入!
2019年4月份,187个R新包收录于CRAN(3月份收录233个,环比降低19.7%),累计收录14,274个R包!此次整理了十个类别,分别为生物技术、数据、计量经济学、机器学习、医学、科学、统计学、时间序列、工具和可视化。
以下是本期R新包的功能简介:
一. 生物技术
1. genpwr: 提供功效和样本量计算函数,用于遗传关联研究.
2. rabhit: 实现自适应贝叶斯框架,支持从AIRR-seq数据推断V-D-J单倍型和基因缺失(Gidoni et al. (2019)).
二. 数据
1. compstatr: 提供工具,用于创建圣路易斯城市警察局(SLMPD)犯罪数据的年度数据集,这些数据可从2008年1月开始每月通过CSV格式发布.
2. DataSpaceR: 提供方便的API接口,支持访问CAVD DataSpace中的免疫数据,这是一种数据共享和发现工具,有助于从临床前和临床HIV疫苗研究中探索HIV免疫数据.
3. ebirdst: 提供下载、绘制和分析EBIRD的工具,EBIRD是一个由平民科学家收集的鸟类观察、状态和趋势数据的全球数据库.
4. PropublicaR: 提供包装函数支持访问ProPublica的国会和竞选财务API接口.
5. tradestatistics: 支持从R访问开放贸易统计(Open Trade Statistics)API下载国际贸易数据.
6. ukpolice: 提供对英国警察公共数据的访问,包括有关警察部队和警察部队的数据、犯罪报告以及使用停止和搜索权的数据.
三. 计量经济学
1. modelplotr: 提供从业务角度评估和预测模型质量的图,可以显示实施模型将如何影响业务目标,如对活动的响应、投资回报等.
2. SortedEffects: 实现了切尔诺朱可夫等人(2018)描述的分类因果效应和分类分析的估计、推理方法.
四. 机器学习
1. iBreakDown: 提供与模型无关的工具,可用于黑盒预测结果的分解图表.
2. localModel: 提供机器学习模型的局部解释,并描述特征对象如何促进单个预测结果.
3. polyreg: 自动形成和评估多项式回归模型,并为交叉验证分类变量提供支持.
4. rfVarImpOOB: 通过计算袋外(OOB)数据的杂质减少重要性得分来估计随机森林的变量重要性.
5. rsparse: 在稀疏矩阵上实现几种统计学习算法,包括矩阵分解、矩阵完成、弹性网络回归和分解机.
五. 医学
1. blockRAR: 提供用于响应自适应随机化临床试验的功能,其块设计可捕获时间和治疗效果.
2. gestate: 提供部分工具,帮助规划和监控复杂审查假设和/或非比例危险下的事件发生时间试验.
六. 科学
1. streamDepletr: 提供多个分析模型以估计地下抽水引起的水流损耗,及其他相关分析工具.
2. RobustSingleCell: 通过相似性分析实现强大的单细胞聚类、跨组织和实验模型的群体组成比较的功能.
七. 统计学
1. BayesSenMC: 在敏感性和特异性不同的先验条件下,产生调整优势比的后验分布,并绘制模型进行比较.
2. bayestestR: 提供用于描述后验分布和贝叶斯模型的实用工具、详细信息和示例插图.
3. CoSMos: 通过转换特定的“父”高斯过程可以衍生出任何过程的假设,实现了一个统一、可扩展和改进通用建模策略的框架.
4. fic: 提供函数来确定不同的模型如何根据最大似然进行参数估计,包括广义线性模型和参数生存模型.参见Claeskens and Hjort (2003).
5. foieGras: 提供拟合连续时间状态空间模型的函数,用于过滤Argos卫星(和其他)遥测数据.
6. glmaag: 支持对高斯模型、逻辑模型和COX模型实施有效的自适应LASSO和网络规则化.参见Ucar, et. al (2007) and Meinshausen and Buhlmann (2006) .
7. Irescale: 提供一种缩放方法,以获得数据集空间自相关的标准化Moran I测量,该测量可以衡量数据与其周围环境之间的相似性.
8. mvgraphnorm: 提供部分函数,用于计算给定图的约束协方差矩阵,同时从高斯图形模型中生成样本,借助不同的算法分析复杂网络结构.
9. ptsuite: 针对幂律分布的尾部指数估计,提供了几种处理方法.
10. spatialreg: 提供使用空间权重矩阵在格/面数据上拟合空间横截面模型的函数.
八. 时间序列
1. CSTools: 提供基于过程的气候预测评估方法,包括预测校准、偏差校正、统计和随机向下缩放、最佳预测组合和多变量验证.参见Doblas-Reyes et al. (2005), Mishra et al. (2018), Terzago et al. (2018), Torralba et al. (2017), and D’Onofrio et al. (2014).
2. DChaos: 利用混沌理论推导的方法,实现了几种单变量时间序列中混沌信号的检测算法,同时通过对吸引子结构的研究,可以估计数据集的复杂度.参见Ruelle and Takens (1971).
3. otsad: 提供了一组针对时间序列的在线故障检测器.
九. 工具
1. inspectdf: 提供一组实用程序,用于按列进行数据框的汇总、比较和可视化.
2. suppdata: 提供从论文中下载数据补充材料的功能,使用论文的DOI(Digital Object Identifier)作为参考.
3. tidync: 提供用于处理NetCDF数据源的工具套件.
4. tinytest: 提供轻量级(零依赖性)、易于使用的单元测试框架.
十. 可视化
1. frequentdirections: 提供FD算法(Frequent-Directions Algorithm)以实现有效的矩阵草图绘制.
2. ggdemetra: 提供ggplot2功能函数,返回RJDemetra的季节性和交易日调整结果,RJDemetra是欧洲统计体系和欧洲央行体系正式推荐的季节性调整软件.
3. graphlayouts: 实现几种新的布局算法以进行网络可视化.
4. tidymv: 提供可视化广义加性模型的功能,并使用tidyverse包中的工具获取预测值.
说明:限于个人水平,错误之处难免,烦请批评指正,共同交流~
往期Top 40 R包介绍: