搜索引擎百度已死

本文转自微信公众号:新闻实验室

作者:方可成

 

最近半年使用过百度的朋友,可能会注意到一个现象:你在第一页看到的搜索结果,基本上有一半以上会指向百度自家产品,尤其频繁出现的是“百家号”。

 

百家号是百度的自媒体平台,刚推出的时候曾经主打过优质作者和高品质内容,后来几经调整,现在成了一个以营销号为主体的内容平台——内容包罗万象,数量很大,质量堪忧。

 

随手举一个例子。昨天有朋友在微信上给我发来一篇百家号的文章,问我是真是假——

该文声称,美国中情局承认本·拉登和911事件无关,向其家族致歉。我搜索发现,这样的惊天新闻,原来是来自专门生产讽刺性假新闻的洋葱新闻。

目前,这篇刊登在百家号上的假新闻已经获得了超过40万的阅读量。

 

百家号的信息质量可见一斑。而百度正通过搜索框,不断地将人们的流量导向百家号。

 

如果你搜索最近的新闻,比如“英国脱欧”,第一页会出现7条结果,第1条是百度百科,第2、4、5、7条全是百家号的文章,只有两条导向百度以外的网站——第3条是和讯,第6条是新浪。

 

搜索“美国政府关门”,第一页的8条结果中一半是百家号,其中包括第1条和第2条。

 

中国2019年的GDP数据昨天公布,我现在(北京时间1月22日上午10点)搜索“中国2019年GDP”,第1、2、4、5条结果全是百家号,其中没有一条能告诉我最新的数据,只有第3条中国经济网的结果是我要找的。

顺便说一句,为了排除可能的个性化算法,我是利用Chrome的隐身模式在登出百度帐号的情况下搜索的。

 

如果我们搜索重要的人物呢?比如特朗普。你会发现,第1页的结果分别是:百度百科、百度贴吧、百家号、百家号、百家号、百家号、新浪、百家号、百度百科。

 

这么多百家号的内容是什么呢?大家看标题体会一下。

再换一个人试试。搜索一下卡舒吉,去年被杀害的沙特记者、《时代》周刊年度人物。结果,第1页全是百度自家的内容:第1、5条是百度百科,其余全是百家号。

 

再来搜搜别的,比如“小猪佩奇”。第1条是百度家的爱奇艺,第2条是百家号,第3条是搜狐,第4条是百度百科,第5条是百家号。

 

搜索“人工智能”,先是一连4条广告,然后是百度百科,中间出现了三个其他网站(同花顺、人工智能实验室、爱范儿),然后是百家号、百度百科、百家号、百度贴吧。

 

如果我们想用百度解决日常生活中的问题,结果会怎样?比如搜索“怎样买高铁票”,前两条结果分别是:百度经验、百度知道,然后才是12306官网,然后是百度经验、高铁网、百家号、百度经验、百度经验。

 

如果我们想学习呢?试试搜索“怎样写毕业论文”,猜猜搜索结果是怎样?一上来就是两条论文代写广告,然后是百家号、百家号、百家号,然后是两个论文代写网。

也就是说,你要么来看百家号,要么去找论文代写。

 

总结一下我的实验结果,黄色背景是百度自家内容或广告:

一年前的百度不是这样,五年前、十年前的百度更不是这样。那时百度虽然也有各种各样的问题,但起码,它真的是一个搜索引擎,真的是你探索中文互联网的入口。你问它问题,真的能得到一些比较满意的回答。

 

但现在,它已经可以改名为“百家号站内搜索”了。

 

百度何以堕落如此?我们可以找到一些外部因素。由于近些年来中国互联网愈演愈烈的分割和封闭趋势,微信公号、微博、淘宝这些重要的平台都不向百度开放,我们能够从搜索引擎上找到的东西本来就是残缺的。

 

但最重要的,还是百度自身饮鸩止渴的商业决策。基本上,百度已经不打算好好做一个搜索引擎了,它只想做一个营销号平台,把希望来搜索内容的人全都变为自家的流量,然后变现。

 

这当然不是什么可持续的商业模式。当人们发现在这里找不到想找的东西,只会越来越少地使用它。百度的这个策略给我的感觉,就像在末日来临前拼命挥霍光财产。

 

在一家科技媒体工作的朋友足羽在朋友圈预测:2019年会有不少公司在招聘要求里加一条“日常用百度搜索资讯的求职者慎用”。

作为搜索引擎的百度已死。Baidu.com已经不是你寻找中文互联网内容的地方,而是百度自家的站内搜索;它将你引向的不是中文互联网中的优质精神食粮,而是囤积在自家的腐臭变质内容。

 

写到这里,很是悲哀:偌大的中文互联网竟已堕落到如此境地,连一个搜索引擎都没有了。

 

罢了。

本文来自:互联网实验室

 

展开阅读全文

数据挖掘已死

02-12

数据挖掘已死,而预测分析将长期存在rnrn 为什么数据挖掘会死去呢?它死于一颗破碎的心,死于一次次的失望。除了受到严酷经济形势的影响之外,另外一个数据挖掘技术没有达成预期效果的原因是因为“数据挖掘“是一个含糊不明确的术语。其与数据特征化、数据仓库,甚至一些数据分析的方法比如联机分析处理(OLAP)和企业分析系统都存在着彼此的重叠。当使用特征化技术取得了几次成功之后。随之吸引了大量的模仿者,提供各种解决方案和软件,但是他们最终都没有实现最初的许诺。这些许诺基本上都是利用采矿作为比喻,仿佛赚钱真的是一件很容易的事情。这也最终导致了提供商提供的信息经常是让人迷惑的,出版商的信息经常是夸张的,而最终用户经常是失望的。rn 数据挖掘应该被重新定义为“预测分析“。其中的区别如下:rn rn 数据仓库 经典的数据挖掘 预测分析rn 查询和报表功能(SQL) 统计分析 预测性算法rn 静态分析 连续性变化 同时包含不连续的变化rn 描述当前和过去 预测过去 预测未来rn 形成假设 验证假设 发现和验证假设rnrn·预测性的,而不仅仅是描述性:对成TB的帐务数据进行扫描,然后发现其中的一些错误信息,这个就被描述成了数据挖掘。但是,它仅仅是描述性的,而不具有预测功能。当一个模型可以根据变量之间的相关性(因果分析)预测错误的时候,那么就可以根据预测结果采取相应的行动了(这个时候就具有了预测性)。请注意,在该模型中包含了一个“相关性“,而不是“因果关系“,虽然我们经常可以从中推导出因果关系。例如,施乐公司使用Oracle的数据挖掘软件进行聚集分析,然后建立了预测模型来分析使用特征历史,最终来预测图像拷贝组件故障的情况。那么其就可以利用该信息提前进行维护工作。rn·停止预测过去,开始预测未来: 在数据仓库上进行的市场趋势分析,OLAP和其他分析程序都会根据了解用户购买和使用的情况(产品或者服务),然后从过去拉一根直线到未来,以此外推出一个趋势。这个也可以被称为数据挖掘。您可以会说这里已经对未来做出了预测,因为它描述了一些未来将要发生的事情。但是,更准备的来说,应该是对过去做出了描述,然后映射到了未来。在分析过程中,并没有包含预测。更进一步来说,这里使用的数据挖掘只适用于连续的变化—将趋势从过去延伸到将来。预测分析同样也可以从模型中产生评分,并且其适用于离散变化的情况。这个在“黑盒“类型函数的时候尤其如此,例如神经元网络和遗传算法。在OLAP,查询和报表中很少将独立和依赖变量联系起来,但是这却是预测分析的本质。rn·发现假设,而不仅仅是进行验证:最后,数据挖掘区别于预测分析的地方还在于假设的形成和验证。例如,一个假设是人们拖欠贷款是因为高负债率。一旦分析师利用他的思考和想象力形成这个假设之后,利用OLAP分析就可以在数据立方体中对这个假设进行验证。预测分析的不同点在于可以寻找数据中可用于形成假设的模型。分析师可能没有考虑到年龄也是形成风险的一个因素,但是数据中的模式暗示了这可能是一个值得深入分析的假设。rn 为什么单独的数据不能称为知识的一个原因是,因为其缺乏结构,组织,方向,一致性。就好像预测模型没有数据的支持,那只能是个空;数据没有一个统一的模型,那也是没有意义的。用户必须熟悉三个领域的知识:业务的细节,数据采集和模型创建。同时我们必须明白,理解具体的含义是业务上的任务,而不是统计上的工作。根据如上的理解,当选择预测分析工具的时候,我们应该根据具体的任务来定:客户推荐,交叉销售,向上销售,个性化,发展忠诚度,流失分析,预测,需求计划,库存缩减,品牌推广和市场动态分析。rnrn 论坛

程序员已死

05-10

很多人说中国有个优势,就是人力成本低。rnrn但是这是一个彻底的谎言!!!软件产业是智力的产业,是创新的产业。国内的教育基础设施太落后了!rnrn国内一个优秀的程序员培养成本比国外,比如美国要高好几倍。首先,国内的高校看似收费低廉,但是都是彻头彻尾的垃圾学校。rnrn说他们提供了劣质的教育都是夸奖他们,简直是反教育的。拿计算机科学和软件工程两大学科来说,课程设置僵化,教师队伍平庸,教学内容落后是普遍现象。rnrn在美国,高校教授的工资大约是20~50万美元/年,相比较软件开发岗位,相当有吸引力。所以高校可以从优秀的企业聘用顶尖人才来授课。相比较而言,国内高校的师资队伍往往都是被企业挑剩的三流队伍。这些人自己都搞不懂软件开发是怎么回事,教学质量可想而知。还有些老教师,自身知识结构老化不说,还霸占了位置,导致过时的课程删不掉,新的课程开不了。rnrn如果把教育看成培养人才的工厂,那么这条生产线上生产的次品率高达90%。的确有些人才脱颖而出,但是他们自学和单打独斗,学习难度比国外的学生高很多。结果是现在高端人才大多是海龟或者被企业再培养的。rnrn海龟和企业再培养的成本是高昂的,留学生的教育投入高过了所在国当地学生。rnrn那么那些次品程序员被垃圾学校创造出来以后呢?他们没有受过良好的完备的职业训练,根本基本的素质都没有。他们被广大的小软件作坊吸收,组装那些最最初级的软件零部件。由于知识的匮乏和能力的不足,他们的生产效率非常低。rnrn比如一个小的客户资源管理系统,不过区区2、3十张表,都是些CRUD操作,这些软件作坊居然要开发半年甚至一年。由于不正确的设计方法,这些代码往往没有交付就已经完全腐败无法维护。rnrn因为语言问题,这些初级代码工人很难阅读外方的软件需求,无法沟通交流,也因为语言问题,他们学习知识的能力非常低,根本没有办法适应现代化的软件生产活动。rnrn软件人才的不足和知识产权保护的空白,使得软件开发变成了廉价的和不值钱的劳动。软件开发的机会成本居然在下降。软件市场出现了反淘汰——那些质量低劣的软件因为成本低,而优质的软因为人力成本的因素而竞争力不足,所以劣币驱逐良币。rnrn造成了恶性循环——因为盗版的泛滥,通用软件被逼迫走向消亡,而用户的定制化需求的不到满足,后果就是一窍不通的用户自行开发质量更加低劣的软件。rnrn这种低水平的重复的需求导向就是吸引了更多低端劳动力从事软件产业。于是软件从业者的数量爆增,但是真正的程序员却不增反减。让人匪夷所思的是,软件从业者的薪水已经几乎和体力劳动者持平,更赶不上销售、管理等岗位。rnrn软件企业不能合理使用和培养人才的矛盾很突出。程序员的积极性没有充分调动。rnrn社会上现在流行一种观点,如果一个人没有一技之长,学习不好,什么都不会,出路就是搞软件。颇具讽刺的是,软件业这种对从业者智力要求相对很高的产业如今已经成为社会下层和闲散无业人员聚集的行业,成为名副其实的低科技产业。rnrn程序员已死,呜呼哀哉。 论坛

没有更多推荐了,返回首页