![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
【大数据】
文章平均质量分 81
曲健磊的个人博客
just do it!
展开
-
大数据需要学习哪些知识?
学习一项技术最重要的是要理解它能解决什么问题,那么学习大数据可以解决什么问题呢?一、大数据可以解决什么问题?场景一:电商网站要把过去一个月或一年卖的好的商品放到首页推荐给用户。问题1:过去一个月或者一年的订单数量是巨大的,如何存储?问题2:假设已经找到存储的方案了,那么大量的订单如何计算?场景二:天气预报需要根据过去一年或者十年的天气状况预测明天或者下个周的天气状况。问题1:过...原创 2018-11-11 17:37:29 · 746 阅读 · 0 评论 -
Google思想一(GFS - Google File System)
思考1:Google 搜索引擎每天要从世界各地抓取数以亿计的网页,数据都存储在哪里呢?GFS:使用大量廉价的去掉硬盘的 PC 机构成集群,将数据都存储在服务器的内存中,采用分布式的文件系统进行存储。思考2:内存中的数据掉电会丢失,怎么保证可靠呢?在世界各地进行部署,部分地区还配有发电厂。当然,不是所有的公司都像 Google 一样技术牛X,有钱,数据都存内存里面。我们的数据主要还是...原创 2019-09-26 16:10:51 · 980 阅读 · 2 评论 -
Google思想二(MapReduce)
MapReduce 的思想源于 PageRank(网页排名) 问题。PageRank(网页排名)现在有四个网页,它们之间的存在如下引用关系:网页 1 有 3 个引用,分别指向网页 2,网页 3,网页 4。网页 2 有 2 个引用,分别指向网页 3,网页 4。网页 4 有 1 个引用,分别指向网页 3。网页 3 没有引用。Google 采用向量矩阵的方式来表示上面网页之间的引用关...原创 2018-11-14 13:36:43 · 673 阅读 · 0 评论 -
Google思想三(BigTable)
BigTable 最基本的思想是把所有的数据都存入一张表。大表的思想有什么问题?引起数据的冗余。大表的思想有什么优点?通过牺牲空间,换取了时间,提高了性能。HBase 就是 BigTable 这种思想的一种实现。对比 MySql 和 HBase 数据库MySql如果要存储学生信息和学生成绩信息,则至少要创建两张表:student 表,grade 表(实际上是会...原创 2018-11-15 00:27:46 · 1210 阅读 · 0 评论 -
常见图表的应用场景及其优缺点
柱图,又称柱状图。是一种以长方形的长度来表达数据的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况。原创 2019-05-04 11:13:56 · 18501 阅读 · 0 评论