实验记录 | 7/5

(9:34)正式地坐到了实验室的电脑前,首先理一下今天要汇报给老师的基本思路,然后就是计划这周的主要任务就是要在基础知识上多下功夫(深入研究作者的那篇文章,和我这一个月一直在运行的somatic.pl的代码)。一方面为下周的汇报做准备,另一方面就是在充分的掌握好背景知识之后,才能够帮助我更好的去跑这个流程,我的决心很大。那就集中精力,去加油吧(我是单线程的生物,拒绝干扰)。

好的,现在开始。


首先就是上次的遗留问题,还没有进一步落实和明确的。我的数据虽然能够覆盖到作者的位点,但是存在大量的“冗余”。有发邮件问作者,作者尚未回复。
后来,我核查文章的原文,发现在随后的处理中会有比较严格的筛选的步骤,最终用于谱系追踪的位点具有很高的显著性。也就是说,虽然我们现在存在大量的冗余,但是可以保证的是,都全部覆盖了作者找出来的这些位点,那些冗余的部分在后续的步骤中可能会被筛去。

其次,就是我上周主要做的事情,就是用作者在文章中用到的这个数据运行了这个流程,目前还没有跑完,只得到部分的结果。所以,对于这部分的结果,一种验证的方式就是看作者在这里单独拎出来分析的突变,在我们的结果文件中是不是能够找到。我这里一共是有8个文件,那么发现在这里是可以部分找到,并且突变的方式是可以对应上的。

最后的话,就是唐老师的那个数据,我们假设这个数据是合理的。我首先看了一下,作者在文章中是怎样进行处理的,那么对应到securt这个包的话,用到的就是这个logNormalize这个方法。如果按照这个方法处理的话,那么在原始矩阵中的0,处理后也应该会是0。然后我对我们得到的这个数据进行了分析,发现比较有意思的结果。
我是将这个表达矩阵的表达值全部的取出来,对其出现的频数进行了统计,发现这个值出现的频数最多,且是第二名的100倍作者,约占整个表达值的70%。我们已知单细胞矩阵是一种稀疏矩阵,能够占到如此大的比例的只可能是0。然后,我再将这个数按照从小到大排了一个顺序,和我之前预想的不太一样的是,他是一系列连续的值,整个数值的区间分布是在这个值到16点几。这个值还是这组数的最小值。那么综合以上的两个方面的考虑,我比较怀疑这个值对应到原始的count矩阵中就是0。再回到前面,按照作者说的这种处理的方法的话,0经过处理之后,应该还为0。所以,对于这之间的转换关系我依然想不明白。
那么,如果接下来,假设这个值就是原来的count矩阵中的0,那么接下来,我想可以怎么处理呢?
我计算了每一个基因在这400多个细胞样本中表达值为这个值的比例。得到的是这个表格。发现有比较极端的情况,要么比值为1,要么比值接近于零,那么如果从差异表达基因的角度去考虑的话,这些基因就不是差异表达基因。那么,接下来,我看了我们感兴趣的四个marker基因的比例,接近于40~70%。符合我们的预期。最后画了这张hist图。
那么接下来,如果这个推论合理的话,我打算把这些基因表达值不为-5的细胞样本取出来,然后对其进行差异表达分析。


今天的事情,基本上完成了。接下来的这段时间(18:30-21:30),继续看文献。我觉得老师本身对这篇文章也并不是特别熟悉,那我现在去把这篇文献分享出来,更是非常有必要了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值