因为不小心被大数据撞了一下腰,这两天有点小郁闷,前思后想了一番,还是决定在工作之余,临时抱抱大数据的佛脚,以备吹牛之用。

   大数据到底现在有多热呢,没有研究就有发言权哪,还是看看国家权威发布吧。我上网查了一下,发现主席在2014年的大会上就提到了:“大数据、云计算、移动互联网等新一代信息技术同机器人技术相互融合步伐加快”。这都是两年前的话了,两年后的今天,大数据已经发展到什么阶段了呢,我还是抄近路去看个究竟把。

   一提起大数据,首先想到的就是HADOOP了,然后就是APACHE,然后就是免费。为了一探究竟,还得先从APACHE谈起。为了避免被二手资料误导,我先去官网APACHE Project Directory逛了逛(一开始用的是宽带上网,页面在不停的打转,后来换成移动4G的信号才行,看来盆子不能都扣到防火墙头上啊)。以下就是官网显示的部分内容。

  其它的内容不一一贴了,老外网站上显示的内容也不太符合中国人的习惯,我用数据分析的方法调整了一下展示方式。

  目前APACHE上一共有330个项目(官网显示333个,但有3个重复显示了:Apache DataFu (Incubating)、Apache Quarks (Incubating)、Apache Taverna (Incubating))。

  下表是按照项目的功能进行分类展示,其中有些项目同属于多个category。

RANKCATEGORYQTY.
1library93
2network-server39
3big-data36
4xml31
5web-framework27
6database25
7network-client25
8retired23
9build-management20
10content17
11http15
12cloud12
13javaee10
14osgi6
15graphics5
16testing5
17httpd-module4
18Library3
19hadoop3
20security3
21identity-management3
22SDK2
23mail2
24regexp2
25mobile2
26identity-provisioning2
27Kerberos1
28sql1
29virtual-machine1
30OSGi1
31ftp1
32composite-oriented-programming1
33Framework1

    从上表可以看出,目前大数据相关的开源项目有36个,排在第3位,big data+cloud+hadoop总共有51个开源项目,看来大数据、云计算家族确实人丁兴旺。

   下表是各个项目所用的开发语言或者支持的语言,从中也大致能了解到语言的流行程度。

RANKCATEGORYQTY.
1Java224
2C21
3Python18
4JavaScript14
5C++14
6Scala12
7C#11
8Perl9
9PHP7
10Ruby7
11XML5
12Groovy3
13Go3
14SQL3
15ActionScript2
16Erlang2
17Tcl2
18Bash2
19Node.JS2
20ODBC1
21OCaml1
22Delphi1
23SVG1
24JSP1
25D1
26SmallTalk1
27Haskell1
28Freemarker1
29JDBC1
30Objective-C1
31Cocoa1

    从上表可以看出APACHE上开发语言的使用情况,除了老三样 C (含C++)、JAVA、JavaScript,另外还包括了Python和Scala也都排进了前六名。至于大数据相关的几个项目,都用到了什么样的开发语言,下一篇再聊。