python爬取淘宝数据魔方_阅读心得3:《淘宝数据魔方技术架构解析 》

本周阅读了老师推荐阅读的公众号:架构师中的推文《淘宝数据魔方技术架构解析》,感想如下:

淘宝,已成为一个国民级别的应用,每个新手机在推荐应用里的购物这一选项,排在第一个的就是淘宝。淘宝,更是在每年双十一屡次刷新人们购物的记录,人们浏览商品,加入购物车,购买,评价,等一系列购物的操作,都会产生很多的数据。那么通过阅读本片公众号推文,我有了一个大体的理解。

在文章中所提到,淘宝将数据分为两类,冷数据和热数据,冷数据即指用户在浏览、搜索、加入购物车时一些操作产生的数据,这些数据不需要及时的反馈给用户,所以可以使用hadoop、mapreduce等技术,进行数据的分析,而计算出的结果并不需要计算出来就返回到前端。热数据是指,一些对实效性很高的数据,比如说搜索词的统计数据,这类数据如果在采用hadoop等技术是非常之慢的,众所周知,hadoop技术适合处理历史数据,而非实时热数据,针对此,淘宝采用了称之为“银河”的实时数据计算平台,用来处理一些用户搜索词的统计来完成“猜你喜欢”、“好物推荐”等模块的精准式推送。

目前,通过大三上半年的学习,对hadoop、mapreduce技术有了部分了解,并作过一些清洗数据等的小实验。在实验中,mapreduce清洗数据时,首先这个数据就包括了有用数据和无用的脏数据,本文提到的淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel能够实时传输数据给一个1500节点的hadoop集群上,有40000个作业的1.5PB原始数据进行处理,而对于处理的需求都能在凌晨两点之前完成,这本身对系统的要求是非常之高的,从这一点就可以看出、淘宝在处理数据这方面真的是非常厉害。

其次,文章第二部分所提到的,关系型数据库仍是王道。在大二大三中,我所接触到的数据库基本是Mysql、SQL这两大类,因为数据量不是很多,且进行编码的作业目前只涉及了增删改查,对性能方面没有要求,对支持最大访问量、同时进行数据的读写、并发访问还没有真正的遇到过,所以我现在在完成网页时所使用的Mysql、SQL数据库已经基本能满足,但是,在大三上学期学习hadoop等技术时,了解到了非关系型数据库,hbase以列式存储的方式处理数据、以及redis处理字符串类型的数据、mongoDB处理文档的行数处理数据等,这些数据库在处理某些特定的数据确实比关系型数据库处理的快。文章中所提到的,淘宝以关系型数据库为基础,用NoSQL来做SQL的有益补充,使得其在处理数据方面能够如虎添翼,最大程度的完成对用户每天产生的数据进行清理,计算,返回。

正如文章结尾所说,淘宝的数据魔方目前已经能提供压缩前80TB大的数据存储空间,支持每天4000万的数据查询请求,把响应时间控制在28毫秒,真的是非常之厉害。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值