作者:Joseph Rickert
翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞数据分析团队,欢迎加入!
2019年6月份,136个R新包收录于CRAN(5月份收录222个,环比降低38.7%),累计收录14,632个R包!由于CRAN会不定时进行R包增删,所以具体数量会随时间略有变化。
此次整理了十一个类别,分别为计算方法、数据、金融、基因组学、市场营销、机器学习、科学与医药、统计学、时间序列、工具和可视化。
以下是本期(第31期)R新包的功能简介:
一. 计算方法
1. cppRouting: 提供使用Dijkstra算法的几种变体,用以计算加权图上的距离、最短路径和等时线。算法包括单向Dijkstra Dijkstra(1959)、双向Dijkstra Goldberg等.
2. GuessCompx: 基于特定数据集,提供用于测试多个递增随机样本的函数,并尝试适应各种复杂度函数o(n)、o(n2)、o(log(n))等,以对算法或函数的时间和内存复杂度进行经验猜测.
3. SimJoint: 提供函数来模拟给定非参数边际分布及其协方差结构的多元相关数据,从纯计算角度用相关矩阵表示.
二. 数据
1. pinochet: 提供智利国家真相与和解委员会(1991年,ISBN:9780268016463)编制的皮诺切特政权受害者数据.
2. usdarnass: 支持通过R下载各种美国农业部(USDA)的数据.
三. 金融
1. ceRtainty: 提供计算确定性等价物和高级风险的功能,作为风险效率分析的工具,参见Hardaker et al. (2004)、 Richardson and Outlaw (2008).
2. portfolioBacktest: 针对研究人员、从业人员和财务指导员等,支持以滚动窗口的方式实现多个股票价格数据集的多个投资组合的自动回溯测试.
四. 基因组学
1. jackalope: 提供从参考基因组模拟变种及从Illumina和Pacific Biosciences(Pacbio)平台读取数据的功能.
2. Patterns: 通过模式化的异构测量实现生物网络的破译工具,使基因和蛋白质的联合建模成为可能.
3. subgxe: 如Yu等人所述(2019),实现使用基因环境相互作用和p值辅助子集测试(PASTA)组合多个GWAS的功能.
五. 市场营销
1. mmetrics: 提供了一种便于计算营销指标的机制。默认指标包括点击率、转换率和每次点击的成本,但也可以轻松定义自己的指标.
2. promotionImpact: 提供分析和衡量给定目标变量(如每日销售)促销效果的功能.
3. uplifteval: 提供各种图表和指标来评估uplift models,包括R uplift包的Qini度量和Qini图.
六. 机器学习
1. archetypal: 提供通过使用凸包近似来执行原型分析的功能,参见Morup and Hansen (2012),、Hochbaum and Shmoys (1985),、Eddy (1977)、Barber et al. (1996)、Christopoulos (2016) 等.
2. googleCloudVisionR: 在R中,支持对Google Cloud Vision API的访问.
3. modelDown: 使用预测模型的HTML摘要实现网站生成器,此包使用dalex解释程序来描述全局模型行为.
七. 科学与医药
1. iCARH: 实现了Jendoubi和Ebbels(2018)讨论的综合条件自回归马蹄模型(horseshoe model).
2. justifier: 实施基于YAML的标准,用于内容记录,例如在研究的规划、执行和分析过程中或在行为改变干预的制定过程中所做的决定.
3. replicateBE: 实现EMA平均生物等效性与扩展限制(ABEL)的比较生物利用度计算,包括方法A和方法B检测异常值.
4. StratefiedMedicine: 提供分析和可视化工具,以帮助分层和个性化医疗。分层医学旨在寻找具有相似治疗效果的患者亚组,而个性化医疗旨在了解个体水平的治疗效果.
八. 统计学
1. cpsurvsim: 提供使用两种方法(逆CDF方法、建议的无记忆方法)模拟I型右删失的时间到事件数据的函数.
2. durmod: 如Gaure等人所述,提供用于评估分段恒定混合比例风险竞争风险模型的函数.
3. kernelPSI: 如Slim等人所述(2019年),实现内核选择的后选择推理策略.
4. missSBM: 提供在随机块模型(stochastic block models)中处理缺失数据的方法.
5. RandomCoefficients: 实现联合密度线性模型的自适应估计,其中系数、截距和斜率是随机的并且独立于回归器.
6. spatialfusion: 在统一的空间融合框架中提供地质统计(点)、点阵(平面)和点阵图数据的多变量建模功能.
7. ui: 提供多个函数,当结果不随机丢失时,推导:1) 回归(线性和概率)参数的不确定性区间; 2) 具有可能未观察到混淆的平均因果效应的双稳健和结果回归估计.
8. varclust: 在低维子空间中提供聚类定量变量的函数.
九. 时间序列
1. bvartools: 实现多变量时间序列模型的贝叶斯推理常用函数.
2. wwwntests: 为功能数据和相关可视化提供一系列白噪声假设测试.
十. 工具
1. gargle: 提供用于使用Google API的实用程序,包括用于处理常见凭证类型和准备、执行和处理HTTP请求的函数和类.
2. git2rdata: 提供在Git存储库中存储和检索数据框的功能,使用git存储库轻松高效地实现data.frames的版本控制.
3. metapost: 提供MetaPost编程语言的接口.
4. rless: 使用LESS语言提供CSS预处理器功能,这是一种CSS扩展,提供在创建样式时使用变量、函数或使用运算符的选项.
5. rock: 实现了可重复的开放编码工具包,它是为了促进可重复和开放编码,专门针对定性研究方法而开发的.
6. tidyrules: 提供将基于规则的模型的基于文本的摘要转换为整洁的数据框(每行代表一条规则)的功能,以及支持度、置信度和提升等相关指标.
7. tsibbledata: 在tsibble数据结构中提供不同的数据集,这对于学习和演示整洁的时间数据如何整理、可视化和预测非常有用.
8. websocket: 为R实现WebSocket客户端接口.
十一. 可视化
1. basetheme: 提供为基础绘图系统创建和选择图形主题的功能.
2. condvis2: 使用交互式显示扩展condvis软件包和Shiny应用程序,以便对模型、数据和密度函数进行条件可视化.
3. nomnoml: 实现基于简单语法绘制UML图的工具.
4. ormPlot: 扩展了RMS回归建模策略包,该包有助于绘制序数回归模型预测以及每个相关变量的置信区间.
5. sugarbag: 提供从空间多边形创建六角形颚板的函数。旨在帮助可视化和分析澳大利亚各地的空间分布,由于沿海人口的集中和该国广阔的内陆地区,这具有很大挑战性.
说明:限于个人水平,错误之处难免,烦请批评指正,共同交流~
往期Top 40 R包介绍:
—————————————
往期精彩: