大数据
文章平均质量分 64
刨坑数据
这个作者很懒,什么都没留下…
展开
-
用MongoDB做子查询
MongoDB不支持子查询,碰到这些复杂的运算就只能先将数据读出后再计算,而用Java等语言编写这类计算也不是很简单,这时可以考虑用esProc辅助实现。下面我们通过一个例子来看一下具体做法。 MongoDB中的文档orders保存了订单数据,employee保存了员工数据。如下: > db.orders.find(); { “_id” : ObjectId(“543原创 2015-12-25 17:40:05 · 13321 阅读 · 0 评论 -
集算器用作Java结构化文件计算类库
有时我们不能使用数据库而采用文件系统存储数据,这时就需要自行完成基于文件的数据计算。但JAVA本身缺少相应的类库,需要硬编码才能实现结构化文件计算,代码复杂且可读性差。在网上有许多寻找用于文件计算的Java类库的问题,如: http://www.coderanch.com/t/561180/java/java/read-text-file-perform-operation原创 2015-06-02 09:13:05 · 944 阅读 · 0 评论 -
报表数据源之Hadoop
集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本、Excel、JSON、HTTP、Hadoop、mongodb等。 对于Hadoop,集算报表既可以直接访问Hive,也可以读取HDFS中的数据,完成数据计算和报表开发。Hive的访问和普通数据库一样使用JDBC就可以,这里不再赘述了。下面通过一个例子来看直接访问HDFS的过程。报表说明 股票原创 2015-04-28 10:09:43 · 2853 阅读 · 5 评论 -
润乾集算报表多样性数据源之混合多源
多样性数据源在报表开发中越来越常见,润乾集算报表对多样性数据源的有效支持使得这类报表开发变得非常简单,目前集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本、Excel、JSON、HTTP、Hadoop、mongodb等。 在集算报表中除了单独使用以上数据源,还可以混合使用。支持混合多数据源是集算报表多样性数据源的又一表现。下面通过一个实例说明使用过程。报表原创 2014-10-16 11:38:19 · 1977 阅读 · 0 评论 -
报表工具与大数据
大数据时代,作为数据呈现的主要环节,报表工具应当怎样适应大数据?我们经常看到用户希望报表工具能支持大数据,也经常看到某些报表工具宣称支持大数据,那么,这在技术上到底意味着什么?事实上,报表的呈现部分和大数据并没有直接关系。报表是给人看的,人类的视觉能力不可能一次看太多的数据,上万个数据同时呈现已经超过了人的极限。报表本身没有呈现大数据的必要,从这个意义上讲,报表工具的呈现部分没必要在容量上原创 2014-08-19 11:47:44 · 3207 阅读 · 0 评论 -
让文件具有计算能力
让文件具有计算能力,可以减轻数据库吞吐瓶颈、降低数据库成本、降低数据库扩容压力、使数据更易于管理。 有很多数据库之外的文件都蕴含着结构化数据,比如:文本文件、Excel文件、日志文件、二进制文件。为了在应用程序中使用这些结构化数据,一般的作法是先把它们导入数据库,利用数据库的接口计算数据并获得结果。 但是,将文件导入数据库再计算,会产生如下不便:原创 2014-08-01 14:57:20 · 511 阅读 · 0 评论 -
用R和集算器计算连续上涨5天的股票
目标:通过日交易数据,从多只蓝筹股中选出连续上涨5天的股票。思路:导入数据;过滤出上个月的数据;按照股票代码分组;将数据按日期排序;计算出每天比上一天的收盘价的增长额;计算出连续正增长的天数;过滤出正增长天数大于等于5的那些股票。原始数据:从财经网站上下载了重点蓝筹股的交易信息,包含29只股票,,存放在Excel中: 集算器解决方案A1:从Excel中读入数据。这个过程原创 2014-07-25 14:03:43 · 2496 阅读 · 0 评论 -
Hadoop集群环境下的网络架构的设计与优化
http://www.thebigdata.cn/Hadoop/9435.html大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验。 大数据Hadoop环境网络特性Hadoop 集转载 2014-04-10 09:29:59 · 634 阅读 · 0 评论 -
Cloudra公司CCP:DS——认证数据专家
原文:http://vision.cloudera.com/24195/。译文:每天我都能看到大数据如何改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症,帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。看上去我需要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不完全是。虽然Hadoo原创 2014-04-24 08:06:02 · 4360 阅读 · 1 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
发布于: 2012 年 8 月 23 日 由 颜开http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩转载 2014-04-08 11:18:59 · 479 阅读 · 0 评论 -
浅析桌面端数据分析程序语言
桌面端数据分析程序语言,其重点是使用方便且计算能力强。考察某种语言是否适合进行桌面端数据分析,可以用六个指标来衡量:应用环境、文件处理、文本和字符串处理、结构化数据处理、模型预测算法、其他非重点指标。 一、应用环境 进行桌面数据分析的用户绝大多数都不是专业程序员,他们更习惯在windows下工作,他们缺乏专业程序员拥有的配置环境的技能,因此桌面端分析程序语言的应用环境应当原创 2015-08-07 09:00:28 · 810 阅读 · 0 评论 -
实现SQL动态列计算的示例
被数据库厂商扩展后的SQL可以动态拼接出语句执行,但SQL的集合运算和有序计算不方便,实现动态列计算很繁琐,往往要借助高级语言拼出动态SQL。 免费的集算器支持动态脚本、有序计算、显式集合,可以弥补这一不足。集算器还支持独立使用、控制台执行、报表调用、JAVA代码调用,详情参考集算器辅助SQL编写的应用结构。 下面举例说明SQL开发中常见的动态列计算问题,以及集算器对应的解法。原创 2015-11-13 09:13:15 · 5534 阅读 · 0 评论 -
解析动态JSON入库
问题来源:http://bbs.csdn.net/topics/390611005 。 系统采集的JSON格式数据(s.json)如下: { “SUCCESS”: [ { "MESSAGE": "IMEI Service List", "LIST": {原创 2015-12-08 08:33:29 · 1814 阅读 · 0 评论 -
将MongoDB导出成csv文件
来源:https://plus.google.com/+VicNgrail/posts/ebS9JUtFopw。 Mongodb可以存储非结构化数据,要将这些数据导出为标准的结构化数据会存在一定的困难。用集算器结合MongoDB可以方便的导出标准化数据,下面看一下具体做法。 Collection test的部分数据如下:/* 0 */{ “_id” :原创 2015-12-22 09:48:33 · 5821 阅读 · 0 评论 -
MongoDB系列之分组topN
来源:https://groups.google.com/forum/#!topic/mongodb-user/Rjv6lyUCe1s 。 Collction last3有两个字段:variable和timestamp,需要先按variable分组,选出每组文档中timestamp最晚的3个,再从这些文档中找到timestamp最早的1个。 last3的部分数据如下:原创 2015-12-04 08:31:00 · 1074 阅读 · 0 评论 -
查询MongoDB子文档的List字段
来源:https://groups.google.com/forum/#!msg/mongodb-user/HqzXSh5DZek/ffZG0TQ1w8cJ 。 Collction Cbettwen含有多级子文档,其中dataList是List型,含有多个字符串,每个字符串由多个数字组成。需要找出符合如下条件的字符串:第1个数字大于6154并小于等于6155。 Cbettwen原创 2015-12-18 09:00:13 · 18240 阅读 · 0 评论 -
MongoDB的本地化排序
对于本地化语言(例如:中文),mongodb是按照UNICODE编码排序,而不是根据本地语言的编码排序。用集算器结合mongodb可以方便的实现本地化语言的排序(例如:中文按照拼音排序)。下面我们以中文为例,来看一下具体做法。 Mongodb中的集合person保存了姓名和性别如下: > db.person.find() { “_id” : ObjectId(“544原创 2016-01-19 09:28:37 · 2440 阅读 · 0 评论 -
MongoDB的外键关联
来源:http://stackoverflow.com/questions/29392169/populating-field-values-for-referred-documents-in-aggregate-call-in-mongoose。 用Mongodb本身的API需要硬编码才能实现外键关联,不够直观且难度较大,这种情况下可以用集算器来实现,下面用例子说明。 Collect原创 2015-12-15 10:54:41 · 14453 阅读 · 0 评论 -
MongoDB的连接运算
来源:http://stackoverflow.com/questions/29396985/is-there-a-where-like-relation-function-when-using-pymongo 。 Mongodb没有直接提供连接运算,硬编码实现有一定难度。这种情况下可以用集算器来实现多个collection的内连接、左连接、全连接、子文档连接,下面用例子来说明。原创 2015-12-11 08:44:25 · 2461 阅读 · 0 评论 -
Java下拼接执行动态SQL语句
在实际业务中经常需要拼接动态SQL来完成复杂数据计算,网上各类技术论坛都有讨论,比如下面这些问题: http://bbs.csdn.net/topics/390876591 http://bbs.csdn.net/topics/390981627 https://www.linkedin.com/groups/SQL-Query-Help-needed-137774.原创 2015-10-30 09:57:30 · 11179 阅读 · 0 评论 -
集算器分段导出指定格式文本
来源:http://bbs.csdn.net/topics/370240857。 数据库表(TB1)部分数据如下: 现需要根据上述数据,并以小时作为时间段生成如下命名(yyyyMMddHH)和格式的txt: 2011101106.txt 1|2011-10-11 6:24:21|aaa 2|2011-10-11 6:30:45|原创 2015-10-27 08:39:00 · 475 阅读 · 0 评论 -
开源SQL in Hadoop解决方案:我们处于什么位置?
转贴地址:http://www.infoq.com/cn/news/2013/12/open-source-sql-hadoop-solutions随着Facebook开源了最近发布的Presto,已经非常拥挤的SQL in Hadoop市场变得更加错综复杂。一些开源工具正在努力获得开发者的注意:Hortonworks 围绕着Hive创建的Stinger、Apache Drill、Ap转载 2014-03-21 09:34:45 · 609 阅读 · 0 评论 -
Java数组(初学者必看)
数组无论在哪种编程语言中都算是最重要的数据结构之一,同时不同语言的实现及处理也不尽相同。但凡写过一些程序的人都知道数组的价值及理解数组的重要性,与链表一道,数组成为了基本的数据结构。尽管Java提供了很棒的集合API和集合类如:ArrayList、HashMap,他们内部都是基于数组。如果你是来自于c或c++背景的程序员,那么你会发现一些关于数组的行为和如何在Java工作中的异同。最值得注意的是C转载 2013-11-27 11:32:36 · 1008 阅读 · 0 评论 -
Hadoop中小规模集群的并行计算缺陷
转自:http://datamachine.iteye.com/admin/blogs/1972376 Hadoop在实际使用中,很多用户会发现Hadoop性能较差、结构复杂、开发困难,并不如想像中的那么好。这是因为Hadoop的并行计算框架是重量级的MapReduce,其设计目标是支持几百或上千台的大集群,为了有效地利用大集群的资源和保证容错性,MapReduce的体系结构设计得很复杂转载 2013-11-11 09:42:15 · 999 阅读 · 0 评论 -
Hadoop如何实现关联计算
转贴存档,原帖地址:http://datamachine.iteye.com/admin/blogs/1963256。 选择Hadoop,低成本和高扩展性是主要原因,但但它的开发效率实在无法让人满意。 以关联计算为例。 假设:HDFS上有2个文件,分别是客户信息和订单信息,customerID是它们之间的关联字段。如何进行关联计算,以便将客户名称添加到订单转载 2013-11-06 13:44:25 · 753 阅读 · 0 评论 -
Spark开始商用
csdn的新闻更新真快,10月31日快报,原帖:http://www.csdn.net/article/2013-10-31/2817360。要点:Cloudera与初创公司Databricks展开了一项合作,在Cloudera的Hadoop软件内集成和支持Apache Spark数据处理平台。Cloudera决定提供Apache Spark的全企业级支持——类似Hadoo转载 2013-11-04 14:42:34 · 1055 阅读 · 0 评论 -
在Hadoop上跑sql的数据工具
csdn的一则新闻,链接:http://www.csdn.net/article/2013-02-25/2814255-sql-is-next-for-hadoop。要点:下一代的SQL-on-Hadoop工具并不仅仅只是商业智能,也不是仅仅只能读取存储在Hadoop上数据的数据库产品, EMC Greenplum, HP Vertica, IBM Netezza, ParAccel, M原创 2013-10-30 16:15:59 · 1091 阅读 · 0 评论 -
SQL on Hadoop的最新进展及7项相关技术分享
早上看到csdn的更新,贴过来做个记号,原帖地址:http://www.csdn.net/article/2013-10-18/2817214-big-data-hadoop。自己编辑了一下,捡干货存档:Hive 目前Hive主要的改进(主要是体现在 Hive 0.11版本上):1. 同一条hive sql解析出的多个MR任务的合并。由Hive解析出来的转载 2013-10-23 09:24:24 · 1074 阅读 · 0 评论 -
结构化大数据的几种计算方法(二)
3、 SQL:这里是指完整的SQL/SP,即ANSI 2000或其超集。以Greenplum为例,GreenplumSQL计算能力强,开发效率高,性能高,这是它最大的优势。其他优势包括语言通用性强,学习成本低,维护简单、有一定的移植可能性。当然,它还有个绝招:支持存储过程,可以进行复杂的计算,因此可以方便地从大数据中获得商业价值。示例如下:CREATE OR REPLACE functionv原创 2013-10-28 08:30:10 · 1056 阅读 · 0 评论 -
结构化大数据计算的几种方法(一)
任何数据都要通过计算来产生价值才有意义,大数据也一样。结构化大数据的计算能力的高低决定了大数据的实用性。 我总结了几种常见的计算方法:API 、Script、SQL、类SQL。 1、 API:这是指没有使用JDBC或ODBC,而是自成体系的API访问方法。以MapReduce为例,MapReduce从底层就是以廉价并行计算为设计目标的,所以它的横向扩展性最好,原创 2013-10-25 14:14:24 · 2671 阅读 · 0 评论 -
大数据的理想应用模式
随着社会的信息化发展,企业IT化的不断完善,业务的不断扩展,服务质量的不断提高,企业数据越来越庞大:如何从海量数据中快速获取自己需要的数据?如何能够完成越来越复杂的数据计算?在数据仓库和数据库中的数据以TB\GB级增长的时候,如何能够保证数据查询和计算的高效率和响应度?这些问题都给CIO带来了严峻的挑战。针对上述的问题,包括Teradata、IBM、ORACLE、EMC、Apache基金会转载 2013-10-16 11:28:11 · 704 阅读 · 0 评论 -
几种数据计算工具,总有一款适合你
数据是枯燥的,码农天天面对枯燥。友好的数据工具,让码农换一个角度操作数据,至少不那么枯燥,分组汇总排序钻取分析总有一款适合你。DataWrangler:由斯坦福大学的可视化组设计来清洗和重排数据的,进行文本编辑非常简单,适用于excel等程序,DataWrangler是基于网络的服务,使用时必须把数据上传到外部网站。对于敏感的内部数据,DataWrangler不合适。原创 2013-11-25 15:09:05 · 1199 阅读 · 0 评论 -
库外计算降低数据仓库(DW)的扩容压力
数据仓库是企业商业智能的核心,随着近几年全球信息化水平的爆发增长,企业的业务数据也随之大幅度增长,数据仓库面临着更加多样化、复杂化的要求以及更大的扩容压力。如何降低DW的扩容成本,是每个IT经理都在关心的问题。 来看这样一个例子,某企业数据仓库现有配置:服务器:2台高性能数据库服务器。存储空间:5TB高性能磁盘阵列。CPU:8颗高性能CPU用户许可:100个转载 2013-11-28 15:09:04 · 1155 阅读 · 0 评论 -
Hadoop不是低成本方案
Hadoop是流行的大数据并行计算体系,廉价横向扩展是它的主要特点。但Hadoop的廉价指的是硬件和软件授权成本,而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优,有时候甚至连硬件成本也不占优。原创 2014-04-15 09:19:01 · 2505 阅读 · 0 评论 -
使用大数据,别忘了linux内存管理
我们常常以为,一旦我们(的代码)出了什么状况,那肯定是操作系统在作祟,而在99%的情况下,结果都会是别的原因。因此我们会谨慎地作出是操作系统导致了某个问题这样的假设,除非你遇到了与下面的例子类似的情况。一切从我们的一个客户报告了他们的CitusDB集群的性能问题开始。这个客户设计的集群使得他们的工作数据集合可以放进内存,但是他们的查询次数显示他们的查询已经需要访问磁盘。这自然会导致查询转载 2014-03-17 16:22:01 · 1064 阅读 · 0 评论 -
用户行为类大数据计算
用户行为类数据是最常见的大数据形式,比如电信的通话记录、网站的访问日志、应用商店的app下载记录、银行的账户信息、机顶盒的观看记录、股票的交易记录、保险业的保单信息,连锁超市会员的购物信息、交通违法信息、医疗就诊记录。用户行为类数据的特点在于用户数量庞大,但每个用户的行为数量较小,针对用户行为的计算较为复杂,用户之间的关联计算相对较少。 用户数量庞大。通话记录中的电话号码、访问日志原创 2014-03-18 11:22:12 · 1740 阅读 · 0 评论 -
让文件具有计算能力
有很多数据库之外的文件都蕴含着结构化数据,比如:文本、Excel、日志、二进制文件等。为了在应用程序中使用这些结构化数据,一般的作法是先把它们导入数据库,利用数据库的接口计算数据并获得结果。 但是,将文件导入数据库再计算,会产生如下不便: 额外的工作量。将文件导入库内,通常要进行ETL。很多时候,还要处理增量数据、实现定时调度、开发存储过程、设置数据库权限,工作量很原创 2014-03-27 15:49:56 · 565 阅读 · 0 评论 -
NewSQL登场,NuoDB告诉你未来数据库什么样
当一个大客户想要继续对你公司加大投资,这是一个好的迹象,而这正是眼下数据库初创公司NuoDB正在经历的事,该公司今天宣布完成1420万美元的融资。Dassault Systèmes是欧洲第二大软件公司(仅次于SAP),对NuoDB有着强烈的兴趣,并且一直是它的投资者。Dassault是3D打印领域开发工具供应商。相比让客户在自己的数据中心运行其软件,Dassault更希望将他们的产品作为云服务提供转载 2014-03-04 10:38:37 · 795 阅读 · 0 评论 -
Hive 集算器 Impala性能对比测试报告(上)
目的对比Hive、集算器、Impala这三种大数据解决方案在分组汇总和关联计算时的性能差异。硬件环境PC数量:4CPU:Intel Core i5 2500(4核)RAM:16GHDD:2T/7200rpmEthernet adapter:1000M软件环境操作系统:CentOS6.4JDK:1.6Hadoop转载 2014-01-23 09:16:50 · 2122 阅读 · 0 评论 -
十八款Hadoop工具帮你驯服大数据
Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按时租用服务、为这套开源核心开发先进的功能强化或者将自有工具添加到方案组合当中。在今天的文章中,我们将一同了解当下Hadoop生态系统当中那些最为突出的杰作。总体而言,这是一套由众多工具及代码构成的坚实基础、共同聚集在"Hadoop"这面象征着希望的大旗之下。Hadoop转载 2013-12-13 13:55:14 · 783 阅读 · 0 评论