自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 如何从NCBI上的Gene数据库批量下载基因序列数据

昨天先尝试了python脚本,为了保险起见,先编写了下载一个基因的压缩包数据,后续批量下载只需改一下ID的提供。但是比较有趣的是与官网直接手动下载相比,我编的程序下载的数据刚刚好缺了我最想要的gene.fna数据,也就是做了大半天无用功,真是drama哈哈哈。实现,但是通过Gene和Nucleotide数据库进行检索得到的结果不同,即Gene数据库检索结果不能直接得到fasta序列,它需要手动点击Download Datasets键获得基因数据压缩包,里面包含基因的fasta序列gene.fna文件。

2024-03-01 20:25:24 2004 3

原创 【Python面向对象编程】什么是封装?什么是继承?什么是多态?

上述例子比较通俗易懂,对面向对象设计的三要素进行了简要叙述,希望能给到初学Python的同学一点启发。关于对象的属性和方法还有很多细节需要去学习。参考资料傅清平--《Python语言程序设计基础教程》

2024-01-12 23:56:18 844 1

原创 【BLAST算法原理】什么是K串?什么是HSP?什么是E值?

“做过多序列比对的人都知道BLAST,也常听到K串、HSP以及E值,那么这些名词到底是什么意思?”BLAST算法原理是什么?

2024-01-11 00:13:39 1080

原创 【生信】QTL定位与全基因组关联分析(GWAS)

上面的QQ-plot中,X轴表示期望-Log10(p-value)(值越大,说明p-value越小,即越显著),Y轴表示观测的-Log10(p-value),由上图可以看出,在p-value较小时,观测p值和期望p值比较一致,,表型呈非连续变异,而遗传物质的数量呈潜在的连续变异的性状,即只有超过某一遗传阈值时才出现的性状,如动植物包括人类的抗病力、死亡率以及单胎动物的产仔数等性状,称为阈性状(threshold character或threshold trait)植物上,模式植物抗逆性基因的定位较多。

2023-12-20 00:21:43 2650

原创 【Viterbi算法的Python和R语言实现】利用HMM纠正基因测序错误

隐马尔可夫模型(Hidden Markov Model, HMM)可用于解决多种问题,包括评估问题,给定模型,求某个观察值序列的概率,可用向前算法实现;解码问题,对给定模型和观察值序列,求可能性最大的状态序列,可用Viterbi算法实现;学习问题,对给定的一个观察值序列,调整参数,使得观察值出现概率最大,可用向前向后算法(EM)实现。声音信号可以被视为一个时间序列,而HMM可以用于建模声音信号中的语音单元,如音素。通过学习发射概率矩阵,HMM可以用于识别说话人所说的单词或短语。

2023-12-17 00:46:03 1010 1

原创 【R语言双序列比对】全局比对Needleman-Wunsch算法&局部比对Smith-Waterman算法原理及代码实现

全局比对和局部比对的显著区别是局部比对的得分矩阵中的分值均≥0,即在考虑打分方式时,局部比对要多考虑一种。在初始化得分矩阵的第一行和第一列时,两者有不同。对于全局比对,需要依次加上gap罚分值,而对于局部比对,则只需要都初始化为0。全局比对和局部比对的核心思想是依次寻求重复子问题的最优子结构,通过序列比对,可以发现序列之间的相似性,也可以判别序列之间的同源性,推断序列之间的进化关系,辨别序列之间的差别,寻找遗传变异。

2023-11-24 00:06:35 1561 5

原创 【生信简单文章复现】差异分析+WGCNA+功能富集分析+PPI网络+Hub基因验证

Weighted Gene Co-Expression Network Analysis,加权基因共表达网络,将复杂生物过程的基因共表达网络划分为高度相关的几个特征模块,其代表着机组高度协同变化的基因集,并可将模块与待定的临床特征建立关联,在研究表型性状与基因关联分析等方面的研究中被广泛应用。本文通过差异分析、WGCNA分析、功能富集分析、PPI网络分析以及生存分析,期望找到乳腺癌(BRCA)的靶基因,进而研究靶基因影响的生物学通路或代谢网络等。

2023-10-30 18:35:15 3144 1

原创 【机器学习】R语言实现随机森林、支持向量机、决策树多方法二分类模型

机器学习建模分析后,还要进行调参或交叉验证以提高模型的预测率,就是所谓的“炼丹”。评估模型也应该用多种指标,包括F1 score,Accuracy(准确率),召回率,绘制ROC曲线等。此外,机器学习是一个“黑盒子”模型,在得到模型预测结果后,还应该深一步进行生物学解释,由于目前我的生信分析能力还不足,后续学习到了再分享~

2023-10-02 19:12:06 3531 19

原创 (数学实验)Matlab实现猜数小游戏(增加了错误输入的判断)

快速学会用Matlab写猜数游戏程序。

2022-10-30 12:59:24 4007 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除