自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

预见未来to50的专栏

Life is limited, but art is long

  • 博客(58)
  • 收藏
  • 关注

原创 学以致用——通过方差系数比较不同股票的估价离散程度

股价上升阶段,离散程度高往往表明上升幅度大,收益率高;下跌阶段,则反之。所以说,不能认为离散程度高,就一定是高风险,入市时机很关键。方差系数:样本的标准差与样本均值的比值以下为2017年1月至7月,几支个股的分析(仅作为学习用途,勿做他用!)。你能说方差系数(离散程度)越高,风险越高吗?在完成这个例子之前,我还真是这样想的。可见,自己动手练一练,好处多多,正所谓

2017-07-31 22:33:23 1657

原创 Excel在统计分析中的应用—第二章—描述性统计-Part2-离中趋势

离中趋势常用方法有:方差、标准差、四分位数偏差和方差系数。1. 方差a. 求非组数据的方差Var()相比通过公式定义手动计算方差,使用该公式,可节省好几步(average(), power(), sum(), count())b. 求组数据的方差计算公式与非分组数据相似,需要使用频率调节权重。2. 标准差方差是基础数据的平方单位,对应量纲为原来的平方

2017-07-31 21:11:36 1034

原创 Excel在统计分析中的应用—第二章—描述性统计-Part1-集中趋势

不得不说,这部分知识有点枯燥。难点在于分组数据的计算。还是要好好学习数学。1. 算术平均值(非组数据、组数据的算法不同)Average()2. 几何平均值(周期增长率、收益率等指标)Geomean()3. 众数(组数据的算法不同)a. 求非组数据的众数mode()4. 中位数a. 求非组数据的中位数Median()b. 组离散数据的中位数c. 组

2017-07-31 18:18:27 1686

原创 Spotfire开发经验——比率计算及多条件排除(sum() over及and (!A or !B))

其实这两个问题都是比较简单的,只是因为是用户提出的变更请求,第一次碰到,所以,一开始觉得比较难。第一个问题:热图制作过程中,要求显示符合特定条件的记录数所占比例。解决办法:1. 发现该条件为文字描述,如果用count(字段=条件)这种方式进行计算,似乎不起作用2. 增加计算列"字段flag",用于辅助计算目标结果(if (字段=条件), 1, 0)2. 增加

2017-07-31 13:52:41 2878

原创 学以致用——利用直方图分析个股涨幅(Excel+Spotfire)

看似简单的一张图,其背后可能是成千上万行的数据在做支撑。先提个问题,某支股票在过去十年来的月涨幅如何?大部分月份里,该股月涨幅表现怎样?在所有月份里,是涨的多还是跌得多?有朋友可能会说,这还用问吗?随便打开一个股票行情软件,看看月K线图不就行了吗?没错,看行情软件是简单快捷,但你有没有想过,如果你有收盘价、最高价、最低价等基础数据,你也可以绘制出一张K线图的。1. 获取原始

2017-07-29 22:27:02 3118

原创 Excel在统计分析中的应用—第一章—统计基础与数据描述

没有系统学习过统计学,看到《Excel在统计分析中的应用》这本书,感觉值得一读。从今天开始,快速学习一下这本书。1. 总体和样本总体:对一组数据中的每一个元素进行观察样本:只对一部分元素进行观察归纳统计学/统计推断:如果样本可以很好地反映总体的特性,可通过样本的分析对总体下结论描述性统计/演绎统计学:仅描述和分析特定对象而不下结论、不推断2. 数据类型连续数

2017-07-29 14:54:51 2192 3

原创 学以致用——将iMovie数据批量添加到iKb数据库中

辛辛苦苦整理的数据,如果东一块西一块的储存,想用的时候找半天或者根本就找不到,有点可惜。保存数据这事,还是交给数据库比较靠谱。将这些零散的数据集中到数据库的话,日积月累,数据量可就不得了啦(就看你用数据干什么了)。闲话少说,数据入库模板如下:连接公式:=CONCATENATE("INSERT INTO ikb (termid, phase, type, subt

2017-07-27 03:03:51 533

原创 学以致用——微博文章内容统计分析之二——我的电影(Excel+Spotfire)

人生已入中年,在电影上花费的时间可谓不计其数,很可能达到了数万小时(这个留待后续考证,反正,有数据,就不愁)。好在我们生活在互联网时代,可以借助豆,瓣这样的应用记录自己看过的电影,然后发布到网络上,做个记录。日积月累,记录的电影数已然过百,是该做个小结的时候了。使用和上篇相似的方法,提取数据(大概花费了我一个多小时,值了!)。提取好的数据如下所示:然后,在Spotfir

2017-07-27 02:29:17 561

原创 学以致用——微博文章内容统计分析之一(Excel+GraphLab)

记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?本次

2017-07-26 23:58:25 950

原创 学以致用——ikb知识库英文词条词频分析-Part3-使用Excel制作高频词标签云(VBA)

高频词用标签云表现出来还是很漂亮的,在网上下载的刘万祥老师的标签云模板,修改后即可为我所用,制作出非常漂亮而具有统计意义的标签云。VBA代码:Sub SetTagSize() Application.CalculateFull '刷新随机数,正式不需要 Dim str As String Dim l As Long str = "" For i

2017-07-19 00:24:04 2126 1

原创 学以致用——ikb知识库英文词条词频分析-Part2-大数据中高频词分析(Spotfire)

承上篇,统计好词的频率后,就需要进行词频分析了。由于最近工作中一直在使用Spotfire,感觉相当高大上,咱就把这个任务交给Spotfire来完成吧。分析结果如下:排名前一百高频词是:No.wordcount1ACCOUNT19382RIDER

2017-07-18 22:31:40 957

原创 学以致用——ikb知识库英文词条词频分析-Part1-数据提取(VBA)

课题描述:ikb系统中已录入了数万条记录,多为项目资料(集中在保险、制药两个行业)。这么多数据,能否分析出哪些次出现的次数最多?这些高频词有没有什么业务含义?有什么意义吗?众里寻他千百度,蓦然回首,那人却在灯火阑珊处。本来想在网上搜一下Excel中Frequency函数的原代码,却无意中找到了一段代码,稍作修改,即可帮我实现我长久以来的上述想法:词频分析。话不多说,直接分享

2017-07-18 22:16:39 877

原创 学以致用——初次使用GraphLab Create分析数据

如果没用过Spotfire这种专业的数据可视化工具,肯定会觉得GraphLab Create很酷。实际上,目前我看到的是,GraphLab Create自动生成的图表是很有限的(但是自动生成的,超级省事)。数据集依然是本人的iKB系统日报。步骤:1. 导入数据:sf=graphlab.SFrame('C:\Users\pande\ds\ikb_summary.csv')

2017-07-18 02:13:08 978

原创 调试经验——GraphLab Create的安装

万事开头难,为了导入GraphLab包,花了我两个多小时。问题描述:在Jupyter Notebook 中执行import graphlab命令后,出现以下提示:“ACTION REQUIRED: Dependencies libstdc++-6.dll and libgcc_s_seh-1.dll not found.1. Ensure user account has

2017-07-18 01:17:06 5287 3

原创 Spotfire使用经验——热图的创建(辛苦工作十小时的成果分享)

客户要求将一份汇总数据采用热图(Heatmap)的形式展示出来。从中午到现在,将近用了10个小时,总算有点眉目了。锲而不舍,金石可镂,我算是深刻体会到了这句话的含义。要点:1. 确定Measure(也就是考量指标),本例为Compliant比例(Protocol ID相同的各条数据中,IssueCompliance字段的值为"Compliant"的占比),放在图表Y

2017-07-14 02:08:43 10628 3

原创 学以致用——Excel连接Oracle生成iKB报告——Part3(功能优化)

作为一个consultant,其价值就在于做一个problem solver,解决具体问题。自己写程序的好处就是,对细节的把控程度更高,更容易实现精益求精。今天,又熬夜优化了一下代码,现在,可以做到从Excel一键提取Oracle数据库iKB汇总数据,进行数据分析及完成自动化日报了。可以说,自动化程度已经相当之高了。分享代码:Sub initialize()'声明定义VB...

2017-07-13 04:31:46 702 2

原创 VBA编码经验——日期类型的比较

这几天,写VBA代码的过程中,感觉日期类型有点难搞,常常要耗掉我很多时间。在这里标记一下。'获取更新日期(update)为指定日期的词条总数 strSQL5 = "SELECT count(termid) FROM ikb WHERE date_updated < _to_date('" & D2 & "') AND date_updated >= to_...

2017-07-13 03:57:48 10461

原创 Excel使用经验——Excel连接Oracle,发生3706错误的解决办法

今天真是遇到了一个奇葩问题,花了我四五个小时才解决。本来昨天写好、调试好的Excel日报功能,今天不能用了。发生了3706错误(运行时错误‘3706’,未找到提供程序,该程序可能未正确安装)。于是,在百度上、雅虎(英文网站)上搜索答案,看了几十篇帖子,试了n种方法(安装驱动、改写连接字符串等),都无功而返。好在自己有种坚持不懈的精神(请允许我自夸一下),想到了是不是Excel账号、

2017-07-13 03:03:36 15402 4

原创 学以致用——Excel连接Oracle生成iKB报告——Part2(Excel日报自动化的数据转换及用户界面)

承上篇。熬夜虽然伤身,但是效率出奇的高。原来心无旁骛的做

2017-07-12 02:28:34 800

原创 学以致用——Excel连接Oracle生成iKB报告——Part1(使用VBA从数据库提取汇总数据)

iKB程序开发出来了,用的很好,很舒服。用来管理自己的知识库是个非常好的工具,小到一个生字、单词,大到一本书,随便往里装。随意增删改查,都是因为底层使用了强大的Oracle数据库。那么,有没有办法生成一个报告,告诉我每天更新了多少词条,词条总量等汇总数据呢。这不,学习数据分析的时候,有个很好的例子出现了,即:Excel报告自动化。原示例用Excel连接Access,速度明显比Ora

2017-07-12 00:44:22 723

原创 Office使用经验——一键移除文章中的多余空行(分享VBA源码)

有时,需要复制网页上的部分文字,粘贴后发现有很多空行,如果手动移除空行,可能相当耗时(可能要花几分钟)。所以,搞了个模板。模板名称:PDF无效行去除模板.docm模板初始化界面:空行移除前(杂乱无序,搞不懂哪来这么多空白):一键移除后:怎么样,清爽多了吧。最后,分享VBA代码如下:Sub clearLine()''rem

2017-07-12 00:17:09 1104

原创 Oracle调试经验-查看当前数据库的实例名

使用Excel连接Oracle数据库时,配置字符串中要提供data source这一项,实际上是要连接的Oracle实例名。那么,如果不确定自己的数据库实例名,应该怎么办呢?答案是:使用管理员权限,运行"select * from v$instance"进行查询查询结果示例:FieldValueINSTANCE_NUMBE

2017-07-11 23:53:38 5471 1

原创 Java桌面应用程序开发——iKB知识管理系统的第一次功能增强

熬夜创建了1.0版本后,熬夜完成了第一个功能增强(enhancement),从后台数据库、Java实体类、服务类、控制器类、测试、UAT,一个人全包了。哈哈,这种感觉很霸气。功能:增加一个字段,更新时间,这样,在以后的时间可以查询什么时间修改了该数据,也可以做一些统计用途(如,一段时间内更新的词条数目总量)。放图:学以致用,学了这么多年Java,也算没有白学

2017-07-11 02:10:44 748

原创 数据分析(入门篇)-第四章-让报告自动化(VBA)-Part1(Excel报告自动化)

VBA是一种通用的自动化语言,可以使Excel常用操作步骤自动化。VBA基本概念:对象、属性、方法、事件VBA调试技巧:立即窗口、监视窗口、本地窗口、编辑窗口Excel日报自动化原理:源数据:提取到Excel中:数据转化区:日报正文区:VBA代码:Sub initialize()'声明定义VBA语句

2017-07-10 22:56:45 9218

原创 Excel数据分析实例——各省人口数量及增长

数据如下:分析图表:容易看出,排名前5的人口大省为:广东、山东、河南、四川、江苏(人口多,不代表经济强哦)人口增长最快的5个省份是:北京、天津、上海、广东、浙江(都是发达地区啊)人口增长绝对数量最多的5个省份是:广东、浙江、北京、上海、河北(前4名经济都挺强)后记:本例本来是要用水晶易表来展现出以下效果,但我感觉,从数据模型角

2017-07-10 15:15:33 8268 3

原创 数据分析(入门篇)-第三章-Show出你的数据-Part2(水晶易表)

在SAP官网上下载了半天,安装时提示输入产品密钥,发现邮件给我的code不能用。SAP,你能上点心吗?结合之前同事用BO、Connectivity,感觉SAP的产品怎么有点不靠谱啊。

2017-07-10 00:11:27 706

原创 数据分析(入门篇)-第三章-Show出你的数据-Part1(地图)

用Excel2016就可以实现地图形式的数据可视化,前提是你的数据里已经包含了地理信息(经度、纬度、X坐标、Y坐标、城市、国家/地区、县市、省/市/自治区、街道、邮政编码、完整地址、自定义区域、自定义区域集等)。

2017-07-09 15:27:56 605

原创 数据分析(入门篇)-第二章-玩转数据分析-Part7(Excel数据分析工具库-移动平均)

同相关分析和回归分析,移动平均法也可作为一种预测方法。

2017-07-09 13:19:33 553

原创 数据分析(入门篇)-第二章-玩转数据分析-Part6(Excel数据分析工具库-回归分析)

回归分析内涵也是很丰富的,值得仔细研究。散点图:简单线性回归:多重线性回归:

2017-07-09 00:59:14 676

转载 Spotfire简介

知乎上看到的,感觉写的不错,特此转载。https://www.zhihu.com/question/41444381

2017-07-09 00:21:21 5977

原创 数据分析(入门篇)-第二章-玩转数据分析-Part5(Excel数据分析工具库-相关分析)

相关分析,看似简单,实则大有学问。一图胜千言,直接上图。后记:上图中包含了多种信息:1. 源数据2. 相关系数的计算公式(数学表达式)及利用Excel进行分解计算的过程3. 各因素的关系图(最直观,最简单,小孩都能看出三者是正相关的关系)4. 使用Excel数据分析模块中的“相关分析”所得结果(和2相互印证)

2017-07-09 00:07:42 557

原创 数据分析(入门篇)-第二章-玩转数据分析-Part4(Excel数据分析工具库-抽样分析)

使用Excel“数据分析”模块中的抽样分析功能,抽取了本人的十篇关于Java的“有缘”文章。文章编号 文章标题73 Java源码-猜数字小游戏(Swing编程版)116 Java源码——对象序列化(对象的存储及读取)(Object Serialization)94 JHTP练习题及课题_第一章_计算机、互联网及Java简介133 JHTP小结_第十三章_图形及Jav

2017-07-08 22:57:29 598

原创 Spotfire经验总结—累积百分比(帕累托图)的绘制方法

在Excel中绘制柏拉图,可使用“数据分析”模块进行绘制。Spotfire中的图表类型中,并没有“柏拉图”这一选项,那么应该如何绘制呢?1. 图表类型需选择“Combination Chart”2. 需添加一列“Cumulative Sum”并修改公式为“Sum([阅读次数]) THEN Sum([Value]) OVER (AllPrevious([Axis.X])) / S

2017-07-08 22:38:01 9841 2

原创 数据分析(入门篇)-第二章-玩转数据分析-Part3(Excel数据分析工具库-直方图)

第一次使用Excel的数据分析功能绘制直方图,发现有比较严重的bug。从来没发现Excel会有如此严重的bug。正确的直方图:Excel自动绘制的直方图:修正方法:手动修改横坐标轴及累积百分比的数据引用。

2017-07-08 21:23:51 1185

原创 数据分析(入门篇)-第二章-玩转数据分析-Part2(Excel数据分析工具库-描述性统计分析)

统计这部分知识,不是很熟悉。有必要认真看看了。原始数据:对阅读次数进行统计分析的结果:平均:  377.4965035标准误差:  37.75702863中位数:  223众数:  323标准差:  451.5083933方差:  203859.8292峰度:  20.17275139偏度:  3.95859362区域:  3230最小值

2017-07-08 20:14:30 1423

原创 Spotfire数据可视化分析-CSDN文章分析

采用内5W2H分析法,提出若干简单问题:1. 文章是在什么时间发布的?(细化到年、月、日、时、星期)2. 文章的阅读次数与发布时间有无关系?3. 哪些文章阅读量最大?源数据:Spotfire可视化展示:不可否认,Spotfire的确是很好用的报表工具,已经甩出Excel几条街了。

2017-07-08 09:52:54 1779 3

原创 Spotfire经验总结—饼图中显示前5位的数据,其他数据合并为“其他”

需求:饼图中显示前5位的数据,其他数据合并为“其他”。Spotfire中提供的标准功能是”仅显示前5位“数据,其他的隐藏,其结果就会是一个失真的饼图。客户提出这个要求,咱就想办法实现呗。方法:插入排序列:使用DenseRank()函数对所有数据行赋值,然后用if函数进行分组。应用示例:If(DenseRank(UniqueCount([Event_ID]) OVER

2017-07-07 00:21:49 3154

原创 数据分析(入门篇)-第二章-玩转数据分析-Part1(Excel数据分析工具-PowerPivot)

用过了Oracle数据库+Toad客户端、Spotfire可视化软件,感觉PowerPivot最不能忍受的就是“慢”,用户体验很差啊。真是货比三家方知好啊。言归正传,学习笔记如下。1. PowerPivot四大优势:整合多数据源、处理海量数据、操作界面简洁、实现信息共享2. 简单数据分析:创建数据透视表——》多表关联分析——》字段计算分析——》函数计算3. 数据

2017-07-06 23:53:02 1869

原创 数据分析(入门篇)-第一章-高效处理千万数据-Part2(Microsoft Query工具)

第一次使用Microsoft Query功能,感觉局限性相比Access、Oracle还是挺大的。简单的说,就是不好用。工欲善其事必先利其器,真是至理名言啊!局限性:同一Excel文件(iKb),可成功导入Access,但Microsoft Query读取时提示“包含不支持的格式”。不支持 count (distinct column)语法。

2017-07-05 23:36:09 710

原创 数据分析(入门篇)-第一章-高效处理千万数据-Part1(Microsoft Access数据库)

大数据特点:Volume(数据量大), Variety(数据类型多样), Velocity(数据处理实时性强), Veracity(数据真实性)Access数据库窗口中包含6大对象:表、查询、窗体、报表、宏、模块(这和Oracle简直判若两物啊)导入数据的方法:直接导入、建立链接合并数据的方法:横向合并(即,多表关联查询)、纵向合并(数据集行数增加,列数不变)内连接、左连接

2017-07-05 22:40:22 2100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除