python爬取淘宝数据魔方_阅读心得3：《淘宝数据魔方技术架构解析》

最新推荐文章于 2021-01-28 22:35:08 发布

weixin_39878549

最新推荐文章于 2021-01-28 22:35:08 发布

阅读量116

点赞数

文章标签： python爬取淘宝数据魔方

本周阅读了老师推荐阅读的公众号：架构师中的推文《淘宝数据魔方技术架构解析》，感想如下：

淘宝，已成为一个国民级别的应用，每个新手机在推荐应用里的购物这一选项，排在第一个的就是淘宝。淘宝，更是在每年双十一屡次刷新人们购物的记录，人们浏览商品，加入购物车，购买，评价，等一系列购物的操作，都会产生很多的数据。那么通过阅读本片公众号推文，我有了一个大体的理解。

在文章中所提到，淘宝将数据分为两类，冷数据和热数据，冷数据即指用户在浏览、搜索、加入购物车时一些操作产生的数据，这些数据不需要及时的反馈给用户，所以可以使用hadoop、mapreduce等技术，进行数据的分析，而计算出的结果并不需要计算出来就返回到前端。热数据是指，一些对实效性很高的数据，比如说搜索词的统计数据，这类数据如果在采用hadoop等技术是非常之慢的，众所周知，hadoop技术适合处理历史数据，而非实时热数据，针对此，淘宝采用了称之为“银河”的实时数据计算平台，用来处理一些用户搜索词的统计来完成“猜你喜欢”、“好物推荐”等模块的精准式推送。

目前，通过大三上半年的学习，对hadoop、mapreduce技术有了部分了解，并作过一些清洗数据等的小实验。在实验中，mapreduce清洗数据时，首先这个数据就包括了有用数据和无用的脏数据，本文提到的淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel能够实时传输数据给一个1500节点的hadoop集群上，有40000个作业的1.5PB原始数据进行处理，而对于处理的需求都能在凌晨两点之前完成，这本身对系统的要求是非常之高的，从这一点就可以看出、淘宝在处理数据这方面真的是非常厉害。

其次，文章第二部分所提到的，关系型数据库仍是王道。在大二大三中，我所接触到的数据库基本是Mysql、SQL这两大类，因为数据量不是很多，且进行编码的作业目前只涉及了增删改查，对性能方面没有要求，对支持最大访问量、同时进行数据的读写、并发访问还没有真正的遇到过，所以我现在在完成网页时所使用的Mysql、SQL数据库已经基本能满足，但是，在大三上学期学习hadoop等技术时，了解到了非关系型数据库，hbase以列式存储的方式处理数据、以及redis处理字符串类型的数据、mongoDB处理文档的行数处理数据等，这些数据库在处理某些特定的数据确实比关系型数据库处理的快。文章中所提到的，淘宝以关系型数据库为基础，用NoSQL来做SQL的有益补充，使得其在处理数据方面能够如虎添翼，最大程度的完成对用户每天产生的数据进行清理，计算，返回。

正如文章结尾所说，淘宝的数据魔方目前已经能提供压缩前80TB大的数据存储空间，支持每天4000万的数据查询请求，把响应时间控制在28毫秒，真的是非常之厉害。