2020年09月_白墨石

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创玩转 Windows 自带的 Linux 子系统 WSL（图文指南）

学计算机离不开 Linux 系统，当然，更离不开Windows。但是，二者从操作到核心的不同，貌似让鱼和熊掌不可兼得。但是！微软已经拿出了一款让鱼和熊掌兼得的方案 WSL （Windows Subsystem for Linux），也就是 Windows 系统中自带 Linux 子系统。这比其他方案的优势在于：不会产生传统虚拟机或双启动设置开销实现 Windows 系统与 Linux 系统磁盘资源的共享相对其他 Bash，更接近原生 Linux 系统网络设置等配置与 Windows 系统保持

2020-09-23 19:33:04 8202 1

原创 Linux 查看文件，目录，磁盘空间占用容量

文章目录文件大小目录大小磁盘占用文件大小列出当前目录所有文件的大小ls -alh过滤当前目录下大于10M的文件find ./ -type f -size +10M -print0 | xargs -0 ls -lh | sort -nr目录大小当前目录的大小du -sh当前目录下各目录大小du -sh *递归查询当前目录所有文件夹大小du -ah磁盘占用df -lh...

2020-09-21 09:17:15 1421

原创一文读懂DNA甲基化及BS-seq

一、什么是DNA甲基化DNA甲基化是一个生物过程，它会在在DNA分子中引入甲基化基团，但是甲基化并不会改变序列本身，而会改变DNA片段的活性。在哺乳动物中，DNA甲基化对于正常发育必不可少，而且与很多生物学现象有密切联系，包括基因组印迹，X染色体失活，转座因子招募，衰老和致癌作用。胞嘧啶甲基化是在真核生物和原核生物普遍存在的，而且甲基化的速率在物种之间有很大的差异。最常见的是在胞嘧啶的5号碳位置，在酶和底物的作用下，引入一个甲基基团，变成了5甲基胞嘧啶（5mC），从而改变了它的活性。腺嘌呤甲基化

2020-09-10 10:36:23 10772 2

原创从零开始学统计 09 | 对数转换

一、对数转换左边是普通数轴，利用log2函数将左边的数据取它的指数，拿到对数轴同样获取对数轴的负值：二、什么时候用对数转换涉及到倍数变化的时候，就应该使用对数比例尺。在左侧数值虽然是分别大8倍，小8倍的差别，但是在数轴上并不对称。但是经过转换后，这两个倍数差异离中心0是等距的，倍数变化就被明显的展示出来了。这可以使正负倍数的变化出现在一个对称的尺度上。三、总结Log 函数只是去剥离指数对数比例尺对于倍数变化非常有用对数的平均值，也叫几何平均值（Geometric Mean），对

2020-09-03 21:06:25 6668

原创从零开始学统计 08 | 中心极限定理

中心极限定理一、计算平均值的分布1. 均匀分布从0-1选任意值，概率都相等计算一组数据集的平均值，在右边绘制直方图在搜集更多的样本，每增加一次样本，绘制一个直方图增加更多的样本会发现平均值的直方图，正好是我们之前学到的正态分布。需要注意：这些平均值是用均匀分布的数据计算出来的但是，平均值本身不是均匀分布的，而是正态分布的。2. 指数分布计算一组数据的平均值，在右边绘制直方图继续增加样本量，我们就会得到一个熟悉的分布需要注意：这些平均值是用指数分布的数据计算出来的

2020-09-03 20:57:12 1625

原创从零开始学统计 07 | 标准误差

一、标准误差假设测量一个基因的五个表达量：**标准偏差（Standard Deviation）**量化了一组测量值中的变化程度同样的实验做五次，每次实验用不同的样本：把五个样本的平均值放在一个数轴：可以计算得到两个值：对五个样本的平均值取平均值，计算得到的标准偏差就是标准误差。**标准误差（Standard Error）**量化了多组测量值均值的变化程度不难发现：标准偏差量化了一组测量值中的变化程度标准误差量化了多组测量值均值的变化程度二、标准误差的表示三个样本绿色：

2020-09-03 20:53:25 5819

原创从零开始学统计 06 | 样本容量和有效样本容量

一、样本容量研究不同个体的表达量，样本容量（Sample size）：N=3研究不同个体的表达量，样本容量（Sample size）：N=3技术重复只能告诉我们该测量基因表达的方法准确性，并不会反应个体间的区别。研究一个方法的准确性，样本容量（Sample size）：N=4二、有效样本容量假设，蓝色小人是一对双胞胎，他们有着高度相似的基因组，但很明显又是两个不同的个体。那么现在不能简单的用样本容量，需要用到有效样本容量来评价。假设，双胞胎的相关性为0.7，有效样本容量公式：代入数

2020-09-03 20:48:02 6463 2

原创从零开始学统计 05 | 技术重复和生物学重复

技术重复和生物学重复一、技术重复一个个体，一个样本，测量多次一个个体，三个样本，每个样本测量以上两种情况都是技术重复，特点：技术重复只是对一个人重复相同的实验给出样本的基因表达的精确测量结果，但不能把结果类推到更广泛的人群中可以得到测量基因表达的准确性，比如，每个技术重复测定后的值都很不相同，那么我们就不能相信测得的任何一个样本应用：第一种技术重复，可以检测样本测量方法稳定性等，可以告诉大家新测量方法有多好。第二种技术重复，只告诉我们个体的信息，而不是方法，因为得到的差异有可能来

2020-09-03 20:45:21 7962

原创从零开始学统计 04 | 协方差与相关性分析

一、老板的任务老板今天又给一个任务：计算肝脏细胞中 X 基因与 Y 基因的关系。现在，两个基因在各个细胞中的表达值都有了。绘制不同细胞中 X，Y 基因的表达值在坐标轴上。计算 X 基因和 Y 基因在5个细胞中的均值，标准差。因为这些测量值都是来自同一个细胞，所以我们可以成对来看：那么这样成对的测量可以告诉我们哪些信息呢？现在，先将一对细胞连接，绘制一个点绘制完成，我们发现，X 基因相对较低的细胞对应的 Y 基因的值也较低，两个基因出现步调一致的表达情况，这可以用一条线来表示：不难

2020-09-03 20:42:41 3701

原创从零开始学统计 03 | 均值，方差，标准差

均值现在使用实际的2400亿个细胞计算均值，也就是总体均值（Population Mean）估计均值（Estimated Mean）：统计学中，用符号x-bar来表示估计平均值，也叫样本平均值（Sample Mean）使用希腊符号μ来表示总体均值（Population Mean）可以从上图看到，样本均值与总体均值不同，但是随着测量越来越多的数据，x-bar会越来越接近μ。方差、标准差方差和标准差，代表数据是如何在总体均值周围分布的，计算总体方差的公式：x-μ，代表从每个数据

2020-09-03 20:32:25 10609

原创从零开始学统计 02 | 总体参数

老板的任务一切的噩梦来自于，老板给你的任务：计算所有肝脏细胞中X基因表达量大于30的可能性。现在，假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。使用直方图绘制，可以看到X基因大多表达量是 10 - 30使用直方图求解现在我们计算一个肝细胞的X基因表达量大于30的可能性，需要两个值：X 基因表达量大于30的细胞数总细胞数利用小学除法：根据观察值，代入使用正态分布求解将刚刚的直方图趋势，对应于分布，可以得到均值为20，标准差为10的正态分布曲线现在，换个

2020-09-03 20:28:39 2454

原创从零开始学统计 01 | 神奇的正态分布

正态分布介绍这是在统计学中大名鼎鼎的一种分布，最早由德国的天文学家Moivre提出。后来，德国数学家高斯（Gauss）首先将其应用于天文学研究，故正态分布也叫“高斯分布”。高斯的这项工作对后世的科学研究影响极大，以至于德国10马克的钞票上印的是高斯头像和正态分布。正态分布在这个世界很常见，这会在后面的文章中谈到。举个栗子下图展示了婴儿和成人身高分布曲线。曲线形状的不同代表，成年人的身高差异的可能性比婴儿更多。可以直观的看到：不管曲线长相如何，正态分布总是集中在平均值区域，也就是数值几种在

2020-09-03 20:08:11 2799