- 博客(13)
- 收藏
- 关注
原创 IGV文件通过Batch Script导入
隐藏对齐信息,仅显示 Coverage。# 强制移除 Alignment 轨道。# 折叠所有轨道,只显示覆盖度信息。# 加载 BAM 文件。
2024-10-15 20:26:04 310
原创 关于生物信息学的知识(5)
ATAC-seq 染色质可及性反映了基因的转录潜能和调控状态,与基因表达和功能密切相关。ATAC-seq的原理是利用转座酶Tn5,将带有测序接头的DNA片段插入到开放的染色质区域,然后对这些DNA片段进行扩增和测序,得到染色质可及性的分布图谱 高通量测序技术主要还是基于二代测序来进行检测的。基于这个原理,我们对于高通量的检测主要还是DNA/RNA的检测。对于蛋白检测的话,目前是通过质谱来做。
2024-06-07 15:29:11 888
原创 vi常用命令总结
这是vi的默认模式。在命令模式下,您可以执行各种编辑操作,如移动光标、删除文本、复制粘贴等。:在可视模式下,您可以选择文本并执行操作,如复制、删除或替换。:在插入模式下,您可以输入文本。:在当前行的下方插入一个新行,并切换到插入模式。:在当前行的下方插入一个新行,并切换到插入模式。:切换到插入模式(在光标前插入文本)。:切换到插入模式(在光标后插入文本)。:删除光标所在位置的字符。:在当前行的开头插入文本。:在当前行的末尾插入文本。:在光标前插入文本。:在光标后插入文本。:强制退出,不保存。
2024-06-06 18:27:44 223
原创 根据华大基因生物信息学分析工程师的要求学习生信
1、了解Linux的文件系统结构,掌握Linux系统的基本操作命令:掌握Pwd、cd、ls、mkdir、mkdir、rm、mv、cat、less-SN、head-SN、head-n等常用操作命令的功能及使用方法。基因,基因组,转录组,蛋白组,表观遗传,染色体,染色体重组,单核苷酸多态性(single nucleotide polymorphism, SNP),变异,常见遗传变异类型,进化/演化等相关基本概念。2、能够了解常用数据分析软件(例如:序列比对软件Blast)的原理,用途,理解数据结果的意义。
2024-03-20 17:17:51 492 1
原创 你想要的关于正则表达式的知识
\s+)//“\n//)\s+//2.\s+: 匹配一个或多个空白字符(空格、制表符等)。这允许在"Protein"和实际内容之间处理空格。3.([\s\S]+?: 这是一个捕获组,匹配任何字符(包括\s空白和\S非空白字符)一次或多次,但由于末尾的?,它以非贪婪方式进行匹配。非贪婪匹配确保捕获尽可能少的内容,同时仍然满足整体模式。4.\s+: 类似于第一个\s+,匹配蛋白质内容之后的一个或多个空白字符。5.\/\/: 匹配输入字符串中的文本 “//”。
2024-03-20 17:10:07 586 1
原创 关于生物信息学的理论知识(4)
终止点由反应中相应的双脱氧而定。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。据估计,人类的基因约有八万到十万个左右,而在UniGenes中的所有人类序列中,经过上述方式加以分组之后,在1998您6月,已得到的超过四万三千个独特的基因组(unique gene clusters),其中大约六千余个具有已知的基因。
2024-03-12 09:20:16 482 1
原创 关于生物信息学的理论知识(3)
REFERENCE: 基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子(promoter)等。sam是两行 @+头,格式版本,排序 参考序列+序列名,序列参考长度 CIGAR值类似777777表示为6个7。
2024-03-09 15:18:50 1062
原创 使用conda批量创建不同的Python版本环境
In [1]: from notebook.auth import passwd #导入包 没有就 pip install notebook==6.5.5 对于jupyter7 from jupyter_server.auth import passwd。Enter password: #输入密码,用于后面登陆jupyter notebook。c.NotebookApp.ip='you_ip' # 应该是'*'In [2]: passwd() #调用包。Verify password: #确认密码。
2024-03-08 09:18:32 331 1
原创 关于生物信息学的理论知识(2)
BLAST:BLAST(基本局部比对搜索工具)是最常用的生物信息学软件之一,用于查找生物序列数据库中的相似序列。(如DNA、RNA或蛋白质序列)的工具。通过比对已知的序列数据库,科学家可以识别新的序列,并推断它们可能的功能。用于研究基因的同源性和功能。Clustal:Clustal是一个多序列比对程序,可以对多个序列进行比对和比较。Biopython:Biopython是一个Python库,提供了许多生物信息学工具和算法,包括序列分析、比对、文件读写等。
2024-03-07 18:42:44 1120
原创 一口气安装800个R包(修改版)
总体来说,这段代码的目的是检查并安装缺失的R包,然后加载所有已安装的包,以便后续使用这些包进行数据分析和可视化等操作。中哪些包没有被安装在当前环境中。函数用于在加载包的过程中隐藏一些输出信息。参数表示在安装过程中不需要用户进行确认,这段代码是用来检查和安装缺失的R包的。的字符向量,其中包含了一些R包的名称。语句,加载已安装的包。语句,找出那些需要安装的包。中的每个包名进行迭代,并使用。的交集进行迭代,对每个包使用。参数表示不更新已安装的包。首先,定义了一个名为。,进入一个循环,使用。
2024-03-06 09:23:32 1490
原创 关于机器学习的4种算法
本文应用准确率(𝑇𝑃+𝑇𝑁/𝑇𝑃+𝐹𝑁+𝐹𝑃+𝑇𝑁)、 精确率(𝑇𝑃/𝑇𝑃+𝐹𝑃)、召回率(𝑇𝑃/𝑇𝑃+𝐹𝑁)、F1 分数(查准率和查全率的调和平均值,2∙𝑃∙𝑅/𝑃+𝑅)和 ROC 曲线 / AUC (TPR 真正例率或者敏感性= 𝑇𝑃/𝑇𝑃+𝐹𝑁即Y轴,FPR假正例率或者特异性=𝐹𝑃/𝐹𝑃+𝑇𝑁即X 轴)来评估算法的可预测性,利用显 著差异基因基因作为特征,通过随机森林(RF),支持向量机(SVM),逻辑回归 (LR),K 近邻(KNN)四种传统机器学习算法构建预测胰腺癌转移的模型,比 较模型效果。
2024-03-02 10:05:41 387
原创 关于生物信息学中的理论知识(1)
ATAC-seq,染色质可及性反映了基因的转录潜能和调控状态,与基因表达和功能密切相关。ATAC-seq的原理是利用转座酶Tn5,将带有测序接头的DNA片段插入到开放的染色质区域,然后对这些DNA片段进行扩增和测序,得到染色质可及性的分布图谱高通量测序技术主要还是基于二代测序来进行检测的。基于这个原理,我们对于高通量的检测主要还是DNA/RNA的检测。对于蛋白检测的话,目前是通过质谱来做。看这个视频即可Tn5转座酶可以得到染色质可及性的图谱,是因为它对染色质的开放程度有选择性。
2024-03-02 09:50:00 1123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人