#Geek Talk# 006 WeGene 陈钢 - 数据创业曾经遇到的那些坑（一）

最新推荐文章于 2021-05-24 16:55:31 发布

极客吐司

最新推荐文章于 2021-05-24 16:55:31 发布

阅读量71

点赞数

本文链接：https://blog.csdn.net/weixin_29119335/article/details/99734371

版权

数据创业是什么？为什么要做数据创业？这条路是否好走，该怎么去解决一路上碰到的问题？Geek2Startup 邀请到毕业于中南大学信息学院计算机专业，在深圳华大基因工作了将近三年，WeGene 联合创始人陈钢来向大家讲述他曾经遇到的那些坑。

以下文字内容根据陈钢在#Geek Talk# 006期的分享整理而成。

我在读书期间和工作以后都在做跟基因组有关的事情。从上个世纪开始，就有人忽悠21世纪是生物学的世纪，于是无数的人就进了基因组行业这个坑，从此再没有出来，一直被埋在里面。还得加上我这种本来没在坑里头，后来往坑里跳的人。但是，近两年这个情况有了一些变化，随着一些基础技术的成熟和成本的下降，这个行业在产业化和商业应用方面显得越来越热。

我在4 月份离开差不多是全球最大的基因组研究和产业机构——华大基因，5月份做完天使，还算比较正常，结果到了6月份二级市场就开始崩盘。至少我了解到智能硬件和互联网的融资都出现了一些麻烦，但即使二级市场崩盘以后，一级市场的生物领域投资依然是很凶猛，包括华大的同行燃石，成立一年多这种水平的公司，也都可以获得一两个亿的融资。这个行业最近几年的变化还是比较快的，像华大基因年初是20 个亿的融资，贝瑞和康是2011年成立，到今年已经到了130 个亿的估值，虽然跟一些最典型的互联网公司相比还有差距，但还是发展挺快的。

作为一个创业者，我今天想借着 Geek2Startup 办的这个创业活动，分享一些所谓数据相关的创业中遇到的一些麻烦和我们做的一些事情。

为什么要做数据创业

这里给「数据创业」一个大概的定义，因为这个名字是我自己编造出来的。我们有很多的创业形式，比如说卖产品、卖服务、卖快餐、送快餐、建立物流这些东西。实际上现在随着大数据，或者是数据本身的价值出来之后，出现了一种以数据为核心，或者是数据分析技术的创业类型。

随着数据分析技术本身大量的开源系统出现，比如谷歌，还有一些美国的高校，已经将包括深度学习这样的系统开源出来，导致对于数据系统本身，你要创造很强大的门槛实际上保持不了太长的时间。而这些项目的核心，其实应该是你能积累多少有效的数据。这些数据的特点是具有比较高的价值，因为数据价值低了你积累起来是没有意义的，而有潜力的数据是有可能变现的。在这样的项目里面，数据量的大小，某种程度上就反映出用户量的大小，变成了最大的竞争力和门槛。

这种例子其实还挺多的，比如说你要去做征信，征信有得有足够多的数据才行，还有一些医院，要做药物研发也需要大量的数据，包括基因等人体数据，甚至之前有很多做车网互联，硬件设备本身不挣钱，采的数据也没有什么用，但把这些硬件里的数据直接对接到保险公司去，最终就变成了保险定价的依据。实际上它的核心不在于卖出多少硬件，而是这些硬件能采回来多少车辆的数据。你装载的车辆越多，每一辆车我都可以不挣钱，但是这些数据本身给到车辆保险公司就可以挣钱。实际上这个事情不是今天才出现的，某种程度上谷歌卖广告，也是因为它掌握了大量人群的搜索数据。所以，核心就变成数据本身的事情。

基因组数据也是这样。我简单说一下基因的东西，人有23对染色体，男女稍微有一点差别，男的是XY，女的是XX，极个别的情况会出现有些人有三个X，或者XYY这种性别不是特别确定的情况，但是比较少见。这些数据在生物课本里面也有，所谓的人类基因组的计划。基因上实际是一个一个的字符，每一种字符会有4种可能，这样的字符大概会有31亿，通过一列一列全部测下来。

人类基因组计划是最早把这个测出来的，当时美、英、日、德、中、法这6个基本上最富有的国家，或者是6个体量最大的国家投了30亿美金，用了1990年到2003年13年的时间，第一次把人的基因组基本上测全了。但从那以后，成本下降的非常快，速度比处理器性能上升还要快。到了今天，如果我们想把这些数据全测完，照一般的标准来说大概只要花一千美金，在中国市场拿到这些原始数据的价格是7700人民币，测的时候把片段打碎了测，测了之后还得把它重新组装起来，会有一些字符上的操作，所以需要测到30重深度，会有100G左右的原始数据。

接下来，所有的事情，会跟疾病有关。比如说肿瘤，本质上就是基因组发生了大量的变化之后导致的疾病。实际上这些基因组数据还能有其他很多的用处，所有从爹妈那里遗传过来的信息都在里面。为什么我们会觉得姚明的女儿比较能打篮球，就是因为他爹妈打篮球打得好，实际上这些东西都是受遗传影响的，不仅仅是疾病，还有各种相貌特征。这些事情一方面可以用到病人的身上，用到临床医学，还可以用到每一个人的身上。

如果把这个事情用到每一个人身上，用到普通消费者的身上，就形成了另外一个产业。这里面做的最大的公司叫 23andme，这家公司是2006年成立，2007年开始推出产品，它的创始人是谷歌的创始人布林的前妻，她是一个生物学博士。刚才我们说的人的基因组上面有31个位点，而这家公司推出的产品本身只测上面的60万个位点，因为人和人基因绝大部分的位点是相同的。

我们经常说人和人之间的差异只有1%，人和猩猩的差异也只有2%的情况，大部分的位点在人和人之间，一般情况下不需要测的，就把那些人跟人之间有差异的位点找出来去测。有差异的，同时我们知道大概有什么用的这些位点找出来去检测就是了。他们这个检测在2007年出来的时候是999美元一个人，到2012年的时候，价格降到了99美元。之后它的数据量增长的非常快，大概在一个半月以前，他拿到了FDA的一些许可，他的价格又涨到了199美元。

他会给用户提供一些东西，比如实际上人的祖源，就是祖先是谁？我的祖辈有什么样的民族的人？什么族群的人？这个东西实际上都会留在你的基因组里面，就能够算出来。甚至说，我们都是现代智人这个物种，就在我们的基因组里面，是不是还有别的物种留下来的基因组的信息，这些也是可以算出来的。

因为在大概6万年前左右的时候，人类在欧洲实际上跟当时的另外一个直立人类，就是人科的另外一个种叫尼安德特人发生过一些交配，留下了可稳定遗传的后代。除了非洲人以外，其他的所有现代智人就是我们人类的基因组里面，是有百分之零点几，到3%、4%的尼安德特人的基因组存在，这些东西都可以算出来。祖源还可以算任意两个人之间的亲缘关系，实际上亲子鉴定是这种亲缘关系分析最简单的一种情况。实际上，往外算出5、6层的亲缘关系都可以算得很准。

疾病风险这个事情学术界做了大量的研究，去找基因组上面这30亿个位点中到底哪些位点的突变会跟哪些疾病有关，去推断这个人未来患这种疾病的风险。最典型的例子就是安吉利亚茱莉，做她遗传性乳腺癌的风险检测，检测完之后，因为她有家族性的乳腺癌，同时她自己检测出来相关的基因有突变，所以她把自己的乳腺切掉，避免她得乳腺癌。还有一些遗传上的特征，比如说头发，甚至耳垢是湿的还是干的事情，这个东西都是遗传会决定的。

还有另外一类东西，刚才说的乳腺癌，是环境和遗传共同作用的结果。还有一类疾病叫遗传病，比如白塞斯病，我们见到所有的罕见病几乎都是遗传病，只要是遗传病，这种形式下单位点的遗传病都不可能在人群中大量的扩散，因为这种人从进化的角度来说会被淘汰的。世界上大概有6900多种罕见病。把所有的罕见病的发病率堆到一块算的时候，发病率就不是特别低了。这样的疾病，比如说我们在座的基本上都不会有遗传病，因为遗传病各方面的能力都比较差，甚至都活不下来。

但是，几乎所有的人都会携带一些遗传病的突变，他对自己没有影响，但是他会对下一代有影响。如果两个人都携带了相同的位点上都有携带这个突变，他的小孩理论上就会有四分之一的概率会患这个病，这也是为什么近亲不能结婚的原因，因为近亲在相同的位点上携带相同致病突变的可能性会高很多，所以他们结合在一起，更有可能诞生有遗传病的后代。这也是为什么所谓的混血儿，或者是距离很远的人夫妻生下来的小孩会更加有优势，实际上是他们携带相同的跟疾病有关的突变的概率低很多。

这些都可以通过检测给到消费者，这家公司去年年底的时候有80万的数据，现在的数据量可能在100万以上。他年初的时候，跟基因泰克公司签了一份6000万美金的合同，这份合同就是从这100多万的用户里面去找基因组满足某些特征的3000个帕金森病人，并且把这3000个人交给基因泰克去做下一步的研究。就这样的一份合同，竟然值了6000万美金。

23andme刚刚做了一轮的融资，融了1.5亿美金，融资后的估值是11亿美元。但实际上，这家公司因为创始人以及它在技术上做的事情，再加上它跟谷歌的关系比较密切，所以它在技术圈是比较热门的，但实际上它并不是估值最高的直接面向消费者的基因公司。

还有一家叫ancestry的公司，这家公司从名字就可以看出来，它就是专门用基因组数据去算人和人之间的亲缘关系，有可能是两个现代人之间的，也有可能是人和古人之间的，或者是人和某个群体之间的。它的产品是99美元一个，大概会测70万个位点。它只做祖源分析，同时基于这些祖源的分析以后，会构建一些社交的关系。

比如它的祖源分析本身，用99美元进行DNA检测去做祖源分析，如果你想享受他的亲缘社交的这种服务，每个月或者是随时向你更新进展，一旦他的数据库里面又多出来了一些数据，这里面是否有用户是你的亲戚，要提供这种服务的话，他每个月会收你几十美元。

他的收入比 23andme 更加多样化，但是最值钱的依然是它的数据，它的数据量长期要比 23andme 高出20%到30%，由于它有亲缘社交这样的收入渠道存在，它甚至现在都不需要去卖它的数据，或者是它不需要去寻找数据的二次价值，就可以获得一年将近2个亿的盈收。它之前上市过，后来又从股市上退下来了。2016年可能会重新IPO，重新IPO的估值会在40到50亿美元的样子。

数据创业过程中遇到的坑

一. 没有数据，怎么启动

我们自己在中国做这个事情，我可以把基因数据都收集到一块，然后用这个数据做药物做医疗，或者是辅助他们去做肿瘤的事情。但是第一个麻烦就是没有数据，那么在没有数据的情况下，能做的就是利用所有跟数据有关的东西去做一些冷启动。如果我是去做社交，要去做一个社交网站启动的话，可能尽量的对接微信或者是QQ，让用户可以比较快的进来，把冷启动的时间缩短。

如果要做社交网站的分析，一个点就是爬微博的基因组的数据，美国佬就想了一个办法。有一个叫 DNALand 的项目，它的域名就叫DNA.land，是哥伦比亚大学的一些人做的，刚刚开始一个多月，他就搜集了一万多个人的基因组数据，如果在中国有哪家公司有这种数据的话，估值不会低于5亿人民币的，而它只用了一个月的时间。

基于这种 Copy to China 的思路，有没有可能把这种东西山寨到中国来，马上就会发现不行，因为这样的公司之所以在美国存在，是因为美国已经有了200、300万人是有自己的基因组数据，而中国没有。今天上午我在医学科学院，可能有30多号人，我当时问有多少人是有自己的基因组数据，他们全都是做生物数据和基因组数据分析的人，老师和学生里居然没有一个人举手。即使在那样的人群里面有基因组数据的人群都极少，所以在整个的大陆里面的数据更少。

如果这个东西想把它山寨到中国来，第一个问题就是用户自己都没有数据，你怎么可能去搜集数据，这就好像我去做车网互联的东西，我说大家把车辆的数据给我吧，你能不能每天自己拿纸抄一下给我，不可能，所以要去做硬件。所以，在这个地方，在基因组数据上面还更麻烦一些，你说你每天车跑的多少里程，你还可以抄一抄，用的油还可以抄一抄，你填上了我给你一个奖励，理论上还可行，但是基因组数据就不可行。没有谁可以自己说，看看我的手的位点是什么基因型，这个事情做不到。当我们去搜集数据的时候，用户自己都没有数据，这实际上成了一个很大的麻烦。

二. 用户自己也没有数据，怎么办？

在这种情况下，用户自己都没有数据。它不像社交网络，用户本身确实是有数据，我每天刷微博刷什么，它的数据就在那，你只是想办法把它搜过来。甚至对于这个数据本身，这个系统本身的运营只把它记录下来，再做分析。现在越来越多的垂直领域去搜集数据的时候，用户本身都没有这个数据，现在帮用户去产生这个数据，包括汽车，征信的数据你是把它各种地方去找聚合起来，甚至找到哪些跟信用有关的数据，基因组数据也一样。

为了解决这个事情我们没有办法，就只能自己去做检测。这个检测从交付给用户的产品来说，实际上只有一个东西。因为人所有细胞里面的基因组，在没有得癌症以前基本都是一样的。比如说血液里面是有基因组的，各种细胞是有基因组的，甚至头发，头发本身没有，但头发的毛囊里面有。所以，剪下来的头发是测不了基因组的，但是我们拔下来的头发，或者是女同胞们早上梳头掉的头发，那个里面是带着毛囊的，那个里面是可以测出基因信息的。

还有一种更常见的就是唾液，大家也会看医学科幻片或者是美剧什么的，喝一口水，嘴巴黏在玻璃上，水杯上的那些东西里面可以提出DNA，那个实际上采集的东西是口腔里面的脱落细胞。每个人给自己采血，这个不大可能，我们想要用户有自己的数据，还让他去医院采血这很难。

在中国要抱医院的大腿，可以想象有多难，医院是很强势的渠道，所以一个比较合适的选择就是去从口腔里面弄点细胞。这种做法比较常见的是直接向唾液收集管里吐口水，吐完口水以后把盖子盖上，这个盖子里面会有一些保存液，跟他混在一块。混在一块摇一摇把这个东西取下来，有一个盖子拧上，就可以去到实验室提DNA，把基因组测出来。

未完，待续。