数据挖掘
生信补给站
分享R python语言用于数据统计,挖掘,可视化展示以及生物信息等场景的内容
展开
-
tidyverse|数据分析常规操作-分组汇总(sumamrise+group_by)
| 本文首发于 “生信补给站” https://mp.weixin.qq.com/s/tQt0ezYJj3H7x3aWZmKVEQ使用tidyverse进行简单的数据处理:盘一盘Tidyverse| 筛行选列之select,玩转列操作盘一盘Tidyverse| 只要你要只要我有-filter 筛选行Tidyverse|数据列的分分合合,一分多,多合一Tidyverse| XX_join :多个数据表(文件)之间的各种连接本次介绍变量汇总以及分组汇总。一 summarise 汇总汇总函数 su原创 2020-07-06 22:59:10 · 2340 阅读 · 0 评论 -
Tidyverse| XX_join :多个数据表(文件)之间的各种连接
本文首发于公众号:“生信补给站” Tidyverse| XX_join :多个数据表(文件)之间的各种连接前面分享了单个文件中的select列,filter行,列拆分等,实际中经常是多个数据表,综合使用才能回答你所感兴趣的问题。本次简单的介绍多个表(文件)连接的方法。一 载入数据,R包library(tidyverse)x <- tribble( ~key, ~val_x, 1, "x1", 2, "x2", 3, "x3")y <- tribbl原创 2020-06-04 21:49:05 · 1025 阅读 · 0 评论 -
Tidyverse|数据列的分分合合,爱恨情仇
本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要。比如基因列为ID的需要转为常见的symbol,基因列为symbol|ID的就需要拆开了!excel分列可以解决,但是表达量数据较大,且excel容易产生“数据变形”。一, 载入数据,R包使用TCGA下载的数据,使用以下几行几列, 作为示例lib...原创 2020-04-28 23:21:32 · 866 阅读 · 0 评论 -
R|tableone 快速绘制文章“表一”-基线特征三线表
首发于“生信补给站” :https://mp.weixin.qq.com/s/LJfgxbTqsp8egnQxEI0nJg生物医学或其他研究论文中的“表一”多为基线特征的描述性统计。使用R单独进行统计,汇总,然后结果复制到excel表中,耗时耗力且易错!tableone包“应运而生”,可以非常简单快捷的解决这个问题,重点是学习成本很低,大概几分钟?一 载入数据,R包## install...原创 2020-03-17 12:37:59 · 8933 阅读 · 6 评论 -
盘一盘Tidyverse| 只要你要只要我有-filter 筛选行
首发于“生信补给站” ,https://mp.weixin.qq.com/s/l9Ci7wREQWpEV5dTvKuoHg,更多的R统计,绘图,生信,请移步????上篇根据 msleep数据集,介绍了列的操作,盘一盘Tidyverse| 筛行选列之select,玩转列操作本文盘一盘行的筛选 ????一 载入R包,数据#载入R包#install.packages("tidyverse")libr...原创 2020-03-02 09:55:51 · 1385 阅读 · 0 评论 -
盘一盘Tidyverse| 筛行选列之select,玩转列操作
文章首发于“生信补给站” : https://mp.weixin.qq.com/s/ldO0rm3UM_rqlFnU3euYaA2020年,开封 《R 数据科学》R for data science,系统学习R 数据处理。**在一个典型的数据科学项目中,需要的工具模型大体如下图所示。 ...原创 2020-01-20 10:37:29 · 3056 阅读 · 0 评论 -
机器学习模型结果,合理使用
机器学习算法结合生信分析很多,作为非算法专业人士,根据模型得到的结论,敢用吗?又有哪些模型评估方法可以是我们用的稍微放心一点呢?本文主要从以下两个模型类别来介绍:评价分类结果:精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等评价回归结果:MSE、RMSE、MAE、R Squared一 分类算法评价1.1 预测准确性分类模型预测是否患有癌症的准确度99.9%,哇 好...原创 2019-11-19 13:56:53 · 747 阅读 · 0 评论 -
R-机器学习| KNN算法
本文使用威斯康星州临床科学中心的关于乳腺癌肿瘤的数据集。一 读入数据cancer <- read.csv('breast_cancer.csv',stringsAsFactors = F)用str(cancer)观察一下数据第一例是id,第二列为diagnosis诊断类型(良性/恶性),第3-32个特征其实只包含了十个属性,但是以mean均值,standard error标准差,“...原创 2019-11-10 22:29:37 · 600 阅读 · 0 评论