百度大数据分享

导语:我们身处海量数据时代。2011年,全球产生的数据量达到1.8ZB(1ZB=10亿TB,1TB=1000GB)。未来十年,全球大数据还将增加50倍。面对数据的暴增,如何有效的存储、管理、访问这些数据?互联网企业将如何应对大数据处理所带来的技术挑战?

      近日,主要来自各大互联网企业的300多位工程师汇聚百度技术沙龙,与中科院、百度、58同城的技术专家围绕海量数据分析的技术趋势与应对进行了深入的研讨交流。由于吸引了众多一线的大数据处理专家参与,本期沙龙被业界谓之“大数据处理技术群英汇”。百度通过沙龙,向业界分享了自己领先的海量数据处理技术。

       正视海量数据所蕴藏的价值金矿

       在互联网的世界,每个人的行为不再是“人似秋鸿有来信,事如春梦了无痕”,任何行为都有前兆,任何行为也都将对后续产生影响。对于互联网大数据的分析,某种程度上将让人类拥有预知并影响未来的能力。而这也正是大数据的魅力所在。每个企业和机构都应正视海量数据所蕴藏的价值金矿。

       百度对于大数据的管理与价值发掘能力处于绝对领先的地位。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,要处理超过100PB(1PB=1024TB)的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。过去10年,百度网页搜索库已从500万猛增到了500亿。

       遵循开放、分享的互联网精神,百度希望把自身对于大数据处理的能力和技术积累向业界开放,分享自身领先的技术理念和实践,帮助所有置身于海量数据之中的企业和技术人员,共同促动行业进步。

       事实上,大数据在生活中无处不在。街上的汽车、路上的行人、天上的卫星等几乎所有的东西每分钟都在生成大量的数据,并通过各类终端进入互联网。从商业、经济及其他领域到国家的决策行为,海量数据分析都在日益发挥着积极而重要的作用。奥巴马政府宣布投资2亿美元,启动“大数据研究和发展计划”。当前,海量数据分析与处理技术已成为各界热切关注的焦点。

       海量数据处理技术,成就百度毫秒级搜索响应

       中科院计算所副研究员查礼博士在沙龙上指出:百度毫秒级的搜索响应速度源于海量数据分析技术。大数据发展分为三个阶段,第一个就是大,通过分布式系统架构Hadoop来编辑出大量的数据,这个阶段现在已经完成。第二个就是快,在解决大量问题、调用大量数据的同时,尽可能缩短时间,是现阶段需要解决的问题。“以时间换空间”是现在主流的解决方法。第三个就是准,在使用搜索引擎的时候,根据每个人的使用习惯和需求方式的不同,来获得更准确的答案,是大数据未来的发展目标。

       据百度分布式高级研发工程师杨栋介绍,从“快”到“准”也正是百度目前的课题。现阶段百度将100毫秒定为搜索响应速度标准,并通过去重算法和云存储等创新技术,在内存、高可用、读写等方面做出革新,不断缩减这个数值,达到更快的响应速度。此外,百度还采用了hypertable(开源分布式存储系统)与hadoop系统结合的方式,更好地完成存储,节约成本及降低能耗。

“准”作为海量数据技术的未来发展趋势,已在百度初现端倪。百度新首页的“推荐引擎”技术就已经部分实现“不搜即得”的智能应用推荐,即基于用户以往的使用习惯分析,直接将用户需要的信息推送至用户个人首页。

      毫无疑问,海量数据时代已经到来,从“快”到“准”的大数据处理技术,将让每一个网民受益,享受到更便捷贴心的网络体验。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值