对话八友科技创始人梁斌:得语料者,得未来

“AI撞开了新时代的大门,新一轮就业结构调整已经不可避免,承认技术大潮不可阻遏,顺应大势,积极拥抱。”

口述|梁斌

整理 | 于彤

出品|极新

随着人工智能的快速发展和技术成熟,AI应用已经从概念阶段进入实践阶段,成为推动各行各业创新和发展的重要引擎。为了进一步推动人工智能应用的落地和创新,行行AI联合见实科技、梅花创投成功举办了主题为“强应用多模型,荡漾人工智能落地大潮”的AI强应用大会。

本次大会采取线上直播和线下互动两种方式,旨在为广大观众提供多样化的参与体验。线下互动环节吸引了近1500名观众的到场,与会观众包括众多的AI应用创业者、几十位关注AI应用领域的投资人以及多家知名媒体机构,大会取得了巨大成功。参会者们共同探讨了人工智能的应用前景,并分享了各行业的最佳实践和创新案例,对整个AI应用行业的落地起到非常重要的推动作用。

北京八友科技有限公司主要从事的是大模型数据服务,现在基本上50%的大模型团队都运用八友科技的数据服务。数据行业的痛点主要有两个,第一就是中文语料少。现如今中文数据比英文数据少,所以公司要做一个很厉害的大模型与外国相比没有天然优势,所以现在很多大模型团队包括公司正在大量翻译国外的语料,来做这方面的训练服务。第二个是数据合规化问题。在中国的范围内,数据是一个很敏感的事,公司的客户接触数据的时候,都会问数据是否有授权的问题,但是很遗憾没有一个数据授权,所以大家可以看数据市场上面中国的数据企业和美国有非常大的距离。

图片

八友科技创始人梁斌毕业于清华大学,获得工学博士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等。在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。

本文,极新对话梁斌,我们深入探讨数据分析行业兴起和发展的话题,聊聊更实用、更能给在行业里创业者做向导的本质问题。梁斌给出了关于这些板块的回答。

“在行业兴起浪潮中,企业的优势和具体情况”

“追逐梦想,顺应时代,放眼未来”

01

“在AI浪潮中,优势塑造和生存法则并不矛盾”

“在坚守创新中,我们找到了自身的位置”

极新:在行业的兴起浪潮中,八友的优势是什么?

梁斌:公司发展都是有计划的,每天采集的数据都整理归档,很多同行并没有保存,所以我们在这一波就进行了快速的客户覆盖,非常非常快。

极新:公司的语料提供方案是怎样定价?

梁斌:一方面按照一条一厘钱的标准定价,价格都不超过1厘/条。第二就要参考客户的预算和他对数据价值的一些判断。接口的定价会映射到数据集,总而言之基本上都是控制在单一体量的数据, 且现在大模型公司的采购的预算一般是几个档,因为这跟他的审批权是有关系的,生动点来说,一般 20 万以下是一个档,可能小的业务负责人就能够批, 50 万的肯定要上升到部门经理, 100 万的要到事业部经理。

极新:语料数据包含个人用户数据吗?

梁斌:数据是我们从App的搜索框抓取下来的,它实际上已经过了风控(审核)。公司的数据都是从搜索框来的,理论上不会触碰到个人隐私的东西。
但是也许不小心可能真的有个人隐私在里面,那对于我们来说,其实也很难把人隐私数据100%(控住),因为任何事情提到 100% 的话难度就非常大。我们只能说在交给客户的时候,我们跟客户说里面有可能是这样,客户公司们对处理个人判断哪些内容是跟个人隐私,或者说不宜公开数据的能力是非常强的。所以说包含个人数据的概率非常非常小。

极新:公司的数据来源是之前通过其他的服务获得的吗?

梁斌:不是,目前国内法律对数据采集是有硬性要求的,你不能绕过它,就是说封锁,比如说你要抓某电商App,它会有风控,例如一个账号一台设备每一天最多能看 1000 条。我们公司大概有上万台手机去抓,公司的手机数量足够多,抓的数量自然也就多了,所以公司是没有绕开它的约束和控制的,这一点和很多用改机等方式绕过风控的采集方法不同。八友科技和其他公司的区别就是同行成本比较低,而我们成本比较高,但是合规性好,公司没有绕开风控,所以我认为我们的数据采集的方式的合规性还是比同行好一点的。

极新:为什么数据采集能成为一个独立行业?

梁斌:之前主要服务舆情公司 ,对他们来说数据采集是苦活,不屑于做。政府是舆情的最大的客户,后来种种原因政府在砍预算的时候,这些舆情公司就很难维持,舆情公司就不会从我们这里买数据采集服务了。然后主要做电商方面的数据采集。企业为什么不能自己做?一个是现在的数据爬取的难度已经大大提高了。第二个就是现在越来越多的大的大的公司会觉得数据采集还是有一些风险。数据采集难度较大,风险又高,不如就交给其他公司去做了。所以说抓取困难和风险大,是我们这种公司能够成长起来的原因之一。

02

追逐梦想,顺应时代,放眼未来

“有一种力量,不止于想象”

极新:八友科技现在的收入结构当中数据集占到多大?

梁斌:传统API 大概有 1000 万,数据集现在将近 2500 万,按照我们计划,公司应该在未来一两年就要过亿了。其实八友科技现在也发展非常快,下面计划肯定要把香港、美国的公司都成立起来。

极新:您认为语料数据市场有天花板吗?多高?

梁斌:在大模型以前,数据分析的天花板确实是比较低的。在大模型以前,数据的价值不高,因为如果很值钱,这种机会可能也不会轮不到我去做了。随着时代的发展,数据的需求肯定是越来越高,且人类产生数据的速度也是非常快,我不能说行业天花板特别的高,但是在有大模型以后,数据行业的天花板已经比以前要高了。但是天花板提高的过程也是一步一步来的,它随着人类社会的需求,行业的发展,认知的发展去逐步提高。

极新:您认为现在要如何快速赚到钱?

梁斌:现在就要快速赚到钱,怎么赚到钱?我把群体分为四个类,第一个类就是有技术有场景的,像腾讯、阿里巴巴做了大模型,他直接在自己场景中就可以去用,这些公司已经完成闭环,我们公司是参加不到里面去的,我们唯一能为腾讯做的就是把数据卖给他们。还有一个是有场景没有技术的。第三类就是有技术、没有场景的,他希望做出一个厉害的东西出来以后,再到行业中推广。那第四类就是没有场景、没有技术公司,这些公司就跟大模型关系非常非常远的。

极新:最近,百度除了做文心一言B端生态之外,也在做开发者社区,好像也不只是百度在做,其他的类似企业也都在做。我想问您是怎么看这样的一个面对开发者的一个生态?

梁斌:是平台和应用,这两个是相辅相成的关系。平台有一个基本的服务、基本的应用,但是平台做不了很多很细的东西,需要在平台上面有很多有特色的小应用。对平台和小应用来说,平台又需要小应用帮他提升能力,然后小应用又帮助了平台,应用的使用必须要在平台当中,所以应用又反哺给了平台,也就是给平台提供使用机会。

极新:未来大模型企业可能会消失非常多,这对于你们的收入的天花板会有怎样的影响?

梁斌:数据分析一定是短期(业务),它不符合人类的长期需要,人类需要集约型(服务)。也就是说互联网以外的行业稳定性是非常高的。八友科技不会永远为大模型公司服务。大模型公司数据储备、人才储备都足够强,可能他们会自己做。当然,八友科技也有很大的优势,现在很多行业的数据都集中在电子书里面,很多很冷门的行业,它不会有知乎、小红书上的人在讨论,它都在电子书里面。而电子书很多都是PDF,电子书里面的图进行大模型处理是非常难的,我们现在就要把电子书里面这些数据拿出来,其他大公司肯定也在做,但是八友科技做一些大公司不做的行业,所以我们对终局也看的比较开。大模型公司一定是从 0 发展到 100 多家,甚至 1000 多家,最后收敛到那几家通用大模型,数十家垂直大模型,不能永远为这些公司服务,毕竟数量有限,而要成为这些公司里面的一个,向更稳定的市场进军。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
第一章引言   第一节什么是搜索引擎   第二节搜索引擎的发展简史   搜索引擎的发展历史   第三节搜索引擎大事快览   第四节国内著名搜索引擎   百度(www.baidu.com)   中搜(www.zhongsou.com)   天网(e.pku.edu.cn)   搜狗(www.sogou.com)   参考文献   第二章搜索引擎概貌   第一节搜索引擎的主要需求   查得快   查得全   查得准   查得稳   第二节搜索引擎的大系统   搜索引擎的体系结构   第三章搜索引擎的下载系统   第一节爬虫的发展历史   世界上第个爬虫   爬虫的发展历程   第二节万维网及其网页分析   蝴蝶结型的万维网   万维网的直径   万维网的规模及变化特征   网页的特征   第三节有关爬虫的基本概念   爬虫   种子站点   URL   Backlinks   第四节网页抓取原理   telnet和wget   从种子站点开始逐层抓取   不重复抓取策略   网页抓取优先策略   网页重访策略★   Robots协议   其他应该注意的礼貌性问题   抓取提速策略(合作抓取策略)   第五节网页库   第六节下载系统回顾及未来发展   参考文献   第四章搜索引擎的分析系统   第一节知识准备   HTML语言   锚文本(anchortext)   半结构化数据(Semi-structureddata)   第二节信息抽取及网页信息结构化   网页结构化的目标   建立HTML标签树   通过投票方法得到正文   网页结构化过程回顾   第三节网页查重   网页查重技术发展历史   网页查重实现方法   第四节中文分词   什么是中文分词   通过字典实现分词   通过统计学方法实现分词   第五节PageRank   PageRank的来由   PageRank的基本想法   PageRank的计算公式   PageRank的计算方法★   第六节分析系统结构图   参考文献
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

极新

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值