- 博客(6)
- 收藏
- 关注
原创 数据科学家告诉你5个学习大数据的正确姿势!
对于数据科学来说,现在是发展的黄金时期。这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元。哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习。第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性代数到统计数据,这几年我也是这样学习过来的。我没有编程背景,但我知道我喜欢处理数据。我比较不能...
2019-08-03 17:22:33 104
原创 Java程序员经常使用20个大数据工具
最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。这是一个系列,主题为:语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。在许多情况下,使用SQL数据库用于存储/检索数据就足...
2019-08-03 17:16:47 133
原创 Hadoop环境安装设置
Hadoop由GNU/Linux平台支持(建议)。因此,需要安装一个Linux操作系统并设置Hadoop环境。如果有Linux操作系统等,可以把它安装在VirtualBox(要具备在 VirtualBox内安装Linux经验,没有装过也可以学习试着来)。安装前设置在安装Hadoop之前,需要进入Linux环境下,连接Linux使用SSH(安全Shell)。按照下面提供的步骤设立Linux环...
2019-07-30 19:59:54 92
原创 Hadoop是什么?
Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Hadoop的架构在其核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce),以及 存储层(Hadoo...
2019-07-30 19:59:52 294
原创 Hadoop教程
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以...
2019-07-30 19:59:50 83
原创 Hadoop大数据解决方案
传统的企业方法在这种方法中,一个企业将有一个计算机存储和处理大数据。对于存储而言,程序员会自己选择的数据库厂商,如Oracle,IBM等的帮助下完成,用户交互使用应用程序进而获取并处理数据存储和分析。局限性这种方式能完美地处理那些可以由标准的数据库服务器来存储,或直至处理数据的处理器的限制少的大量数据应用程序。但是,当涉及到处理大量的可伸缩数据,这是一个繁忙的任务,只能通过单一的数...
2019-07-30 19:59:50 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人