自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 数据挖掘期末project-乳腺癌预后模型建立-3.1lasso-cox

final_expr里的37行是经过基因差异分析&WGCNA分析取交集后的37个基因。

2023-12-08 16:26:53 125

原创 数据挖掘期末project-乳腺癌预后模型建立-3 预后模型建立

举例来说,5年生存期作为观察终点的结局事件是“死亡”,对应的没有发生结局事件的状态被声明为“生存”。疾病复发作为观察终点的解决事件是“复发”,对应的没有发生的状态为“未复发”。

2023-12-07 17:07:04 338

原创 数据挖掘期末project-乳腺癌预后模型建立-2.2 WGCNA分析并与DESeq2取交集

首先,WGCNA并不适合在2.1的差异基因筛选后的基因集上做,原因在知乎上有大佬们进行过讨论:@云生信学生物信息:强烈不建议采用的基因进行WGCNA分析, 因为差异表达的基因,就是的样本失去了多样性。@Zheng博士:WGCNA旨在识别共表达的基因模块,而不是单个基因,分析结果应在此背景下进行解释。使用WGCNA来鉴定DEG可能没有考虑到模块内基因之间的潜在相互作用,并且可能会错过重要的生物学见解@胡喵喵WGCNA求的是基因共表达网络,用筛选后的差异表达基因分析,网络节点变少,会降低稳定性。

2023-12-05 17:09:28 1482

原创 数据挖掘期末project-乳腺癌预后模型建立-2.1 筛选差异表达基因

第四课:RNA-Seq数据分析——三种主流的差异基因分析(DESeq2,EdgeR,limma) - 知乎 (zhihu.com)筛选差异表达基因有三种方法:limma、DESeq2、EdgeR这三种方法都是用于筛选差异表达基因的常用工具,但它们在原理和实现上有所不同:- **原理简介:** limma最初是为微阵列数据设计的,但后来也被应用于RNA测序数据分析。它基于线性模型,使用的是贝叶斯推断的方法来鉴定基因的差异表达。- **工作方式:** limma通过拟合线性模型来考虑每个基因的表达量。

2023-12-05 13:46:08 190

原创 数据挖掘期末project:预后模型建立:1. 数据获取

对于给定的基因组参考区域,统计映射到该区域的测序片段(reads)的数量。但是啥也不会,所以每个板块都要学。对给定的基因组参考区域计算比对上的read数意味着统计在基因组中特定区域的DNA序列上映射的测序片段(reads)的数量。这种类型的分析对于了解基因组的覆盖度、基因的表达水平、变异位点的检测以及其他基因组学研究都非常有用。HTSeq-Counts表示的是在处理RNA测序数据时,HTSeq所计算得到的基因的计数值。将测序数据(DNA片段序列)与已知的参考基因组进行比对,寻找这些片段在基因组中的位置。

2023-12-05 12:16:58 75

原创 decision tree

最简单的:100个里90+10-,就用90+的去做叶子,10-丢掉。4个或接近4个时已经是testing Min,所以生成树时到某种情况就停止。并不是很好,因为分割次数比较多,prefer左边的情况多一点。2. 加惩罚项(比较麻烦)(节点个数作为惩罚项/...)和前面贝叶斯那个差不多,考虑要有多少个标签(行),(中间没听,后面听录音吧)无序的矩阵用树表示出来。

2023-12-04 19:39:26 14

原创 Naive Bayes Classifier(w15)

无论是否垃圾邮件,后验概率都为0,导致后验分类为0,搞不定solution2:直接删掉never appeared。

2023-12-04 18:26:47 27

原创 二、1.1 LDA&QDA 线性判别分析和二次判别分析(w14)

ppt:北师大王宁老师课程ppt全称:Linear Discriminant Analysis and Quadratic Discriminant Analysis 线性判别分析和二次判别分析判别分析有两个作用,一个是降维dimensionality reduction,另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面,并且还能使得我们的数据类别非常好区分。

2023-12-04 17:19:12 336

原创 数据挖掘学习笔记

一、 regression1. linear regression2. extension2.1 model selection2.2 multivariate response; reduced-rank regression; canonical correlation analysis2.3 categorical response(logistic regression2.4 high-dimensional problems二、classification1. L

2023-12-04 16:00:23 16

原创 合成控制方法学习:待更新

弟弟吃了营养品(假设除了营养品外,弟弟和哥哥其他生活条件基本相似),一年后,弟弟身高165cm,哥哥身高170cm,我们观察到,相同时间内,弟弟身高增长15cm,哥哥10cm。遗憾的是,我们并不能寻找到一个与A地区相似且为受到政策处理的地区,例如,我们评价房产税改革对上海市房价的影响,主观上,我们会觉得“北京、深圳”等地,和上海地区较为相似,但是这仅仅是我们的主观臆断,并不够严谨。在实验室中进行的实验,例如,生物细菌培养,实验基本条件是可控的,可以通过人为改变外在条件,达到对处理组和对照组的不同处理效果。

2023-10-10 16:21:24 76 1

原创 成为我导学生的第一周

研究:1. 课题:环境经济2. 季度报告:贫困、扶贫两个任务:1. 学习方法2. 了解数据库。

2023-10-10 16:05:31 43 1

原创 《R语言实战》day?-第十一章:中级绘图

本章,我们主要关注用于展示(多元关系)的绘 图方法。比如下面的例子。 汽车里程与车重的关系是怎样的?它是否随着汽车的汽缸数目不同而变化? 如何在一个图形中展示汽车里程、车重、排量和后轴比之间的关系? 当展示大数据集(如10 000个观测)中的两个变量的关系时,如何处理数据点的 情况?换句话说,当图形变成了一个大黑点时怎么办? 如何一次性展示(给你一个电脑屏幕或一张纸,并且预算没有《阿 凡达》那么多)? 如何展示? 如何在单幅图中展示?它又如何帮助你理解数据的结构?

2023-09-23 13:03:53 446 1

原创 第十章 功效分析

 判断所需样本量 计算效应值 评价统计功效。

2023-09-23 10:36:52 282 1

原创 《R语言实战》day9 方差分析

以 multcomp包中的cholesterol数据集为例(取自Westfall、Tobia、Rom、Hochberg,1999),50 个患者均接受降低胆固醇药物治疗(trt)五种疗法中的一种疗法。其中三种治疗条件使用药物 相同,分别是20mg一天一次(1time)、10mg一天两次(2times)和5mg一天四次(4times)。剩下 的两种方式(drugD和drugE)代表候选药物。哪种药物疗法降低胆固醇(响应变量)最多呢?# 看各组样本大小table(trt)# 看各组均值。

2023-09-21 16:40:35 374 1

原创 应用回归分析课作业摸索-数值模拟

其实还没看懂你什么意思,只能先摸索一下,学点别人的东西。

2023-09-18 10:09:51 112

原创 R语言报错list ——持续更新

这里说的是plot窗口不够大,所以调整一下大小就好了。不要过分依赖百度,先尝试自己解决问题。

2023-09-17 14:23:24 1170 1

原创 《R语言实战》day8——第三部分(中级方法)——第八章 回归

上一节我们学习了为回归方程选择变量的方法。若你最初的目标只是描述性分析,那么只需 要做回归模型的选择和解释。但当目标是预测时,你肯定会问:“这个方程在真实世界中表现如 何呢?从定义来看,回归方法本就是用来从一堆数据中获取最优模型参数。对于OLS回归,通过使 得预测误差(残差)平方和最小和对响应变量的解释度(R平方)最大,可获得模型参数。由于 等式只是最优化已给出的数据,所以在新数据集上表现并不一定好。

2023-09-17 12:16:03 1322 1

原创 python报错解决list(持续更新

解决:退出,windows+R调出命令行窗口,再输pip install packaging ,安装完成后可能要重新启动pycharm才能够import。(btw,不知道为什么我电脑里大概有3456个python版本,待解决,等闲下来了全部推翻重来。待解决:前几天下载了python3.11,但是pycharm还是只能到3.10,可能是没更新上。移到最前面(不是加进去就可以,因为运行的时候是自动选最前的版本运行)最终解决完成的情况:pycharm的解释器路径=环境变量里的路径。

2023-09-16 11:46:34 205 1

原创 《R语言实战》day7-第七章 基本统计分析

 描述性统计分析 频数表和列联表 相关系数和协方差 t检验 非参数统计两两探索所选择变量之间的关系。

2023-09-14 15:38:29 260 1

原创 《R语言实战》day6-第二部分-第六章基本图形

第三章:par()函数能够让你对R的默认图形做出大量修改本章内容 条形图、箱线图和点图 饼图和扇形图 直方图与核密度图 将变量的分布进行可视化展示; 通过结果变量进行跨组比较。

2023-09-10 18:29:27 232 1

原创 《R语言实战》day5 高级数据管理

 数学和统计函数 字符处理函数 循环和条件执行 自编函数 数据整合与重塑。

2023-09-10 15:06:39 229 1

原创 《利用Python进行数据分析(第二版)》day1-

之前刷过leetcode的pandas的题目,学完书里的pandas再去刷一遍一周一共有三天是软件学习,因为R没有专门的课学而且之前一无所知,会以学R为主以前断续接触过python 以查缺补漏+实际应用为主了。

2023-09-09 17:36:17 127 1

原创 《R语言实战》day4-基本数据管理

 操纵日期和缺失值 熟悉数据类型的转换 变量的创建和重编码 数据集的排序、合并与取子集 选入和丢弃变量。

2023-09-08 16:23:59 217 1

原创 《R语言实战》day3——第三章 图形初阶

注意:再次提醒,并非所有函数都支持这些选项。请参考相应函数的帮助以了解其可以接受哪些选 项。从更精细的控制和模块化的角度考虑,你可以使用本节余下部分描述的函数来控制标题、坐 标轴、图例和文本标注的外观某些高级绘图函数已经包含了默认的标题和标签。你可以通过在plot()语句或单独的 par()语句中添加ann=FALSE来移除它们。3.4.1标题:title()函数title()中亦可指定其他图形参数(如文本大小、字体、旋转角度和颜色)。

2023-09-07 21:46:46 117 2

原创 《R语言实战》学习day2—第2章 创建数据集

 探索R中的数据结构 输入数据 导入数据 标注数据老师上课讲了,快速过一下。

2023-09-07 20:04:36 136

原创 《R语言实战》笔记-day1

痛苦day1新手使用CSDN 多多包涵看到有大佬的学习笔记,感觉这样比干看书要方便很多,决定效仿一下。数据挖掘课老师说接下来会用python学 这部分做参考8。

2023-09-07 14:17:26 39

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除