数据分析与挖掘
文章平均质量分 71
fish_cool
擅长java并发设计与开发(包括多核开发)、java性能调优、java分布式架构与设计、工作流引擎算法、python;对erlang、ada、搜索引擎有浓厚的兴趣,曾从事过数据分析与挖掘(SAS)和hadoop平台相关(hive、sqoop、R、zookeeper、mahout、Hbase等)方面的研究与开发,现阶段负责公司的整个大数据平台的搭建(包括海量实时OLAP查询、离线计算平台、实时计算平台),并朝着各平台封装成产品的方向前进
展开
-
连续数据与离散数据
在统计学中,数据按变量值是否连续可分为连续数据与离散数据两种. 变离数据是指其数值只能用自然数或整数单位计算.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种数据的数值一般用计数方法取得. 反之,在一定区间内可以任意取值的数据叫连续数据,其数值是连转载 2011-10-18 17:14:01 · 11635 阅读 · 0 评论 -
各种图形展现的功能简介
在众多的图表类型中,选用那一种图表更好呢? 根据数据的不同和使用要求的不同,可以选择不同类型的图表。图表的选择主要同数据的形式有关,其次才考虑感觉效果和美观性。 下面给出了一些常见的规则。 面积图:显示一段时间内变动的幅值。当有几个部分正在变动,而你对那些部分总和感兴趣时,他们特别有用。面积图使你看见单独各部分的变动,同时也看到总体的变化。 条形图:由一系列水平条组成。使得转载 2012-05-14 21:44:59 · 1109 阅读 · 0 评论 -
SAS运行输出看不到结果
最近在检查之前SAS代码,为了调试能够在输出窗口打印,但是在运行:proc print data=test;run;后,在输出窗口没有任何数据。 后经过检查发现:使用这样一条语句就解决了问题:ODS LISTING;即可解决问题。原创 2012-08-15 15:24:23 · 11494 阅读 · 0 评论 -
SAS的Proc rank 的用法
proc rank 其实最主要的是掌握那几个选项,该proc 的整体语法结构如下: proc rank ; var 变量; ranks 新变量名字; by 分组变量; run;这是一个整体的语法结构,举例,比如说我要对sashelp中的heigh转载 2012-08-16 11:23:24 · 16084 阅读 · 0 评论 -
SAS学习笔记
最近在做SAS转换代码,之前学过,但时间长了有所忘记,为了以后方便查找,所以再次进行复习的时候,对SAS学习进行了简单的记载。 SAS常用语法结构SAS的变量的基本类型第一:数值型第二:字符型 变量名后必须使用$说明符其他数据类型中,日期、时间等变量存为数值型,可以使任意的整数,定点实数、浮点实数等,一般使用8个字节。字符变量默认的长度为8个字符,当然也可以通过length原创 2012-08-15 18:33:19 · 12584 阅读 · 1 评论 -
数据统计与挖掘的通用设计原则
目前已经在基于hadoop平台上做数据统计与挖掘快一年了,这里将对做数据统计时的一些通用设计要求做总结(跟业务无关)。以hive作为工具第一:优先考虑增量计算,其次考虑全量计算。第二:支持重算机制,简单地说就是当数据计算有误时,可以支持重算(也就是说这次的计算结果能正确覆盖上一次的结果)。第三:脚本编写并行化,如果脚本编写没有明显的上下关联的话,优先考虑并行化。第四:脚本中变化原创 2012-07-27 09:43:55 · 797 阅读 · 0 评论 -
SAS随记
最近老系统的sas代码在计算过程中,出现了少数据的情况,我经过了几次检查代码后,还是未发现问题。最后在一个资深同事帮助下,发现了问题的原因,但是自己回想起来还是觉得自己细心的程度不够和如何调试SAS代码不够熟练,说明如下:在代码中主要是以下这段代码(敏感地方将略去):data test.top_order_merge2;mergesource.order_sub_1(i原创 2012-09-13 17:40:25 · 786 阅读 · 0 评论 -
大数据总结
最近刚看了新的一期《程序员》杂志的一篇大数据的文章,总结的特别好,为了方便我去查找所有将里面的内容再次精简后写下来。在这篇文章里主要是几个方面:数据传输、数据存储、数据计算、数据展现、数据开发平台、数据应用市场我之前对数据的总结在:数据存储、数据管理、数据计算 数据传输包括:实时同步、批量同步。一般常用方式采用时间线。数据存储包括:内核级分布式存储、用户级分布式文件存储、业原创 2012-12-04 16:09:05 · 1194 阅读 · 0 评论