踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)

GB_ACC转换成基因

直接利用GEO分析

在上个系列中,我们记住了 GB_ACC ,但制作热图,需要我们将其转换成基因名,如果你已经转换好了或者不需要制作热图,前参考后续系列。
方法1(推荐)

如下图示意,将GB_ACC转换成基因名。


上图选项框勾选后,就会出现对应的列在列表中,如下图勾选 GENE_SYMBOL后的效果。
在这里插入图片描述
如此就可以实现GB_ACC与基因名的对应。

GB_ACC的第二种方法(繁琐)

我并不推荐这种方法,它十分的繁琐且对新手不友好,如果你是新手,请忽视掉它

在后面的文章中,如果特别指明(请忽视)说明是不重要无伤大雅的。

要复制的列:

在复制选择的列之前,我们需要对它进行排序,这个非常重要

再删除重复,如图
在这里插入图片描述
之后打开David,
地址:https://david.ncifcrf.gov/
在这里插入图片描述
由于我做的是人类基因,所以下图步骤3选择可能不同,请自己选择

在这里插入图片描述
之后我们可点击下载文件
在这里插入图片描述
注意,有些GB_ACC是没有基因的,所以我们需要对下载的文件进行进一步排序。
在这里插入图片描述
基因的排序(请忽视)
准备工具
Sublime Text,请自行下载

除如图所示外,其他全复制。
在这里插入图片描述
先将文件贴到新的excel中,进行排序

排序完成之后,再复制全部(ctrl + A全选,ctrl + C 复制)新建一个文本文档并用 sublime text打开,粘贴基因。
正则表达式

查询多个括号:
\(+[^\n]+\(
删除括号左右侧:
\)+[^\n]+\n
\n+[^\n]+\(

点击查询,找到查找和替换,然后逐个输入上方正则表达式(就是上面每行表达式,注意中文是注解行,就别输入了)替换成换行符(也就是写"\n",注意不带引号)。

一般来说括号内是基因,有的 基因说明 中,括号内不一定是基因,请在进行上面正则表达式操作之前,手动删除用括号括起来但里面又不是基因的文本(连带它的括号一起删了)

注意输入正则表达式顺序已排好,依次操作就好,别整错顺序了。
在这里插入图片描述
上图注意按顺序点击。

在这里插入图片描述
在这里插入图片描述
两个图示范了一个正则表达式的用法,请自行完成后续正则表达式的操作。
删除末尾多余文字
在这里插入图片描述
删除开头多余文字
在这里插入图片描述
之后全部复制贴回对应行即可,另存为csv文件,我们这里命名为GSE_HM

总之,一定要注意排序,排序是都有的数据(这里是GB_ACC)

不允许有重复的’row.names’解决问题

在R studio中,我们发现输入以下代码可能报错:

df = read.csv("文件目录", header = T, row.names = 1)
不允许有重复的'row.names'解决问题

出错原因是数据格式不对,但这在网上很少解释清楚,常错的原因有以下几点:

	1.第一行有重复名
	2.CSV文件格式错误

原因1用Excel修改第一行重复名称即可。
我们介绍2如何解决,这里我们先用 sublime text (软件,自行下载)打开文件修改即可,(事实上,任何文本编辑器都可以)
我们需要分析的csv的数据格式如下:

	1. 每行末尾必须有英文符号的逗号
	2. 最后一行需要换行(即保留一行空白)
	3. 如果存在末行连续逗号,要删除,如图。
	4. 注意,开头没有空格

在这里插入图片描述
在这里插入图片描述
这样问题就基本解决了。

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值