数据分析(Data Analysis)
文章平均质量分 58
预见未来to50
不忘初心,方得始终!
展开
-
调试经验——利用OneNote进行文字识别(OCR with OneNote)
以前用过OneNote的文字识别,感觉不太灵。最近又试用了几次,感觉识别率还是很高的,不知是否进行过升级。1. 要识别的图片2. 将以上图片复制到OneNote,点击右键,点击“复制图片中的文本”3. 复制到记事本是这样的4. 移除多余空格,稍作校改后的效果如下:...原创 2020-03-22 00:35:52 · 3146 阅读 · 0 评论 -
调试经验——Excel中去除单元格内的换行符(Chr(10))的四种方法
问题描述:客户提供的Excel文档格式中,同一属性值,有的单元格有换行符,有的又没有,造成了属性值列表(LOV, List of Value)中存在冗余,给数据分析造成了干扰。所以,需要进行数据清洗,即把这些换行符替换成空字符("")。解决方法:方法一:使用Excel内置函数Clean()方法二:使用文本替换功能,换行符的输入需要使用Ctrl+j方法三:使用E...原创 2020-02-29 23:54:30 · 4360 阅读 · 0 评论 -
数据分析(入门篇)-第四章-让报告自动化(VBA)-Part1(Excel报告自动化)
VBA是一种通用的自动化语言,可以使Excel常用操作步骤自动化。VBA基本概念:对象、属性、方法、事件VBA调试技巧:立即窗口、监视窗口、本地窗口、编辑窗口Excel日报自动化原理:源数据:提取到Excel中:数据转化区:日报正文区:VBA代码:Sub initialize()'声明定义VBA语句原创 2017-07-10 22:56:45 · 9051 阅读 · 0 评论 -
数据分析(入门篇)-第一章-数据分析那些事儿
《谁说菜鸟不会数据分析》这本书,看起来是本给小白看的书,实则内容丰富,值得认真学习。从今天开始,看第三遍,顺便写个读书笔记,备忘。数据分析类型:描述性数据分析、探索性数据分析、验证性数据分析数据分析作用:现状分析、原因分析、预测分析数据分析六步曲:明确分析目的和思路——》数据收集——》数据处理——》数据分析——》数据展现——》报告撰写PEST分析框架:政治、经济、社会、原创 2017-07-02 14:57:11 · 1944 阅读 · 2 评论 -
数据分析(入门篇)-第二章-结构为王——确定分析思路
常用数据分析方法论:1. PEST分析法定义:对政治、经济、社会和技术这4大类影响企业的主要外部环境进行分析用途:行业分析概念图:应用示例:2. 5W2H分析法定义:Why/What/Who/When/Where/How/How Much用途:用户行为分析、业务问题专题分析概念图:应用示例:3. 逻辑树分析法定义:将问题的所有子问题分原创 2017-07-02 16:25:08 · 551 阅读 · 0 评论 -
数据分析(入门篇)-第三章-无米难为巧妇——数据准备
理解数据:字段与记录、数据类型(字符型、数值型、日期型...)、数据表(标题行+数据行,将二维表转换为一维表)、导入数据原创 2017-07-02 16:34:22 · 405 阅读 · 0 评论 -
二维表和一维表在Spotfire中的可视化差异
二维表似乎是设计不符合规范的数据表,因此,在进行数据分析或可视化之前,最好先将二维表转换为一维表。在Spotfire中,分别添加一维表和二维表数据并进行可视化设计,发现两者的差异很大。一维表优势明显,有图为证。一维表:二维表:后记:正所谓有比较才有鉴别,数据结构果然很重要。这可能就是ETL中Transform的作用的体现了吧。如果不是将原始的二维表转原创 2017-07-02 20:13:12 · 1044 阅读 · 0 评论 -
Excel图表-用三维柱形图展示各地GDP的对比效果
通过VBA一键生成69种Excel图表,可从众多的图表类型中最适合的一种作为重点展示方式。如,对于各城市历年GDP数据,发现了三维柱形图是个不错的展示方式。这算不算一种数据挖掘呢?后记:从这几张图中我看到了让人悲哀的数据,落后地区的GDP与发达地区的GDP的差距逐年扩大,真是富者愈富穷者愈穷的马太效应啊!!!原创 2017-07-03 01:57:30 · 3161 阅读 · 0 评论 -
Excel图表-用数据点雷达图展示各地GDP的对比效果
承上文,这次发现,数据点雷达图也是个很有意思的展示方式。有图有真相。原创 2017-07-03 02:21:01 · 1814 阅读 · 0 评论 -
Excel应用—一键生成69种Excel图表_V2.0
发现上次熬夜写的VBA代码还有一些bug,一不小心又花了近4个小时完善了一下“一键生成各种69种Excel图表”的功能。改进的地方有:1. 图表输出顺序调整为从左到右,从上到下输出(耗时最多的部分)2. 图表的标题中包含了图表类型(如,气泡图,三维堆积柱形图,三维堆积面积图等)现在,图表区看起来舒服了很多,有图为证。后记:前一篇博文说过在Spotfire进行数据可视原创 2017-07-03 01:32:51 · 3504 阅读 · 6 评论 -
Excel图表-用三维堆积柱形图展示各地GDP的对比效果
三维堆积柱形图与Spotfire中最常用的barchart很像,但前者是3D的,看起来更漂亮。原创 2017-07-03 03:20:46 · 2386 阅读 · 0 评论 -
Excel应用-自动生成字母序列号(ABCDE...AA...XFD)
Excel学到高级阶段,很多之前手动完成的工作,都想着能用更好的方法来完成。比如,如何让Excel自动填充字母序列号(ABCDE...)?横向生成公式(向右拖动鼠标进行填充A-Z):=CHAR(COLUMN(A1)+64)纵向生成公式(向下拖动鼠标进行填充A-Z):=CHAR(ROW(A1)+64)貌似问题解决。等等,再看看需求。要作为序列号,A-Z这26个字母就够原创 2017-07-03 11:30:12 · 12821 阅读 · 1 评论 -
利用Excel函数实现多重分类法与二分法的相互转换
1.多重分类法转换为二分法方法一:=IF(ISNUMBER(HLOOKUP(1,$B4:$D4,1,FALSE)),1,0)方法2:=IF(ISNUMBER(SEARCH("1",$B8)),1,0)二分法转多重分类法似乎有点难度,暂且放下。原创 2017-07-03 15:19:25 · 2203 阅读 · 0 评论 -
数据分析(入门篇)-第四章-三心二意——数据处理
本章全是干货,“玩数据”的人就靠这些技能吃饭了。“三心二意”处理数据:信心、细心、平常心+诚意、合意数据处理的步骤:数据原表——》整齐的数据表——》我要的数据表重复数据的处理:1. 函数法(比较繁琐)2. 高级筛选法(菜单操作)3. 条件格式法(比较直观,可实时显示重复项,比较直观,可用于编辑词条时的辅助(即,如果某个新录入的词条在之前已录入过,则该词条实时变色,提原创 2017-07-03 10:40:09 · 697 阅读 · 0 评论 -
数据分析(入门篇)-第五章-工欲善其事必先利其器——数据分析
本章也是满满的干货,必须认真学习!1. 对比分析定义:将数据进行对比分析差异分类:静态比较(同一时间不同指标的比较,如不同部门、地区,又称横向比较)、动态比较(同一总体条件下不同时间的比较)2. 分组分析法(组数、组距的确定)3. 结构分析法(百分比、占比,如市场占有率)4. 平均分析法(算数平均数)5. 交叉分析法(交叉表,对应Excel的Pivot Tabl原创 2017-07-03 16:31:59 · 766 阅读 · 0 评论 -
数据分析(入门篇)-第六章-给数据量体裁衣——数据展现
1. 揭开图表的真面目图表的作用:表达形象化、突出重点、体现专业化经济适用图:表格、饼图、条形图、柱形图、折线图、散点图通过关系选择图表:成分、排序、时间序列、频率分布、相关性、多重数据比较图表制作五步法:表达主题——》确定图表目的——》选择数据——》展示效果——》检查是否达到目的表格也疯狂:突出显示单元格、项目选取、数据条、图标集、迷你图给图表换装:平均线图、双坐标图、竖原创 2017-07-03 23:42:57 · 858 阅读 · 0 评论 -
数据分析(入门篇)-第七章-专业化生存——图表可以更美的
别让图表犯错让图表“五脏俱全”(标题、单位、脚注、图例)要注意的条条框框:避免误意义的图表、不要把图表撑破、只选对的不选复杂的(省去若干具体技巧,需在工作中吸取经验教训)图表会说谎:虚张声势的增长、3D效果的伪装、逆序排列的误导、一维图形的障眼法浓妆淡抹总相宜:简约、整洁、对比略施粉黛——美化图表的技巧:最大化数据墨水比、找出隐形的线、图表喜欢的数字格式(使用Arial字体)、原创 2017-07-04 00:52:46 · 531 阅读 · 0 评论 -
Excel应用-各地GDP的综合对比图表-Part1(三维柱形图、数据点雷达图、复合图)
一图胜千言,详实可信的数据如果配以清晰明了的图表,其表现能力毋庸置疑。只看这两图,觉得北上广深快要逆天了是吧。不过,不能只看总量,还要看增长速度。如果能够保持高速增长,小树总有一天也会长成参天大树。总量排第一的上海,5年增长率竟然排在倒数第三名,真是出人意料啊!加油!后两张图并不是自动生成的,却很有参考价值。所以,在自动化的同时,要腾出足够的时间用来原创 2017-07-03 03:28:46 · 4176 阅读 · 0 评论 -
Excel应用-各地GDP的综合对比图表-Part2(平均线图、复合饼图、瀑布图、帕累托图)
跟着教材学了几种新的图表的绘制,感觉挺不错,特此分享、备忘。原创 2017-07-04 01:11:12 · 2735 阅读 · 0 评论 -
数据分析(入门篇)-第八章-专业的报告——体现你的职场价值
入门篇复习完了,收工。夜已深,请允许我偷懒一下。原创 2017-07-04 01:42:21 · 577 阅读 · 0 评论 -
VBA编码经验——日期类型的比较
这几天,写VBA代码的过程中,感觉日期类型有点难搞,常常要耗掉我很多时间。在这里标记一下。'获取更新日期(update)为指定日期的词条总数 strSQL5 = "SELECT count(termid) FROM ikb WHERE date_updated < _to_date('" & D2 & "') AND date_updated >= to_...原创 2017-07-13 03:57:48 · 10297 阅读 · 0 评论 -
学以致用——Excel连接Oracle生成iKB报告——Part3(功能优化)
作为一个consultant,其价值就在于做一个problem solver,解决具体问题。自己写程序的好处就是,对细节的把控程度更高,更容易实现精益求精。今天,又熬夜优化了一下代码,现在,可以做到从Excel一键提取Oracle数据库iKB汇总数据,进行数据分析及完成自动化日报了。可以说,自动化程度已经相当之高了。分享代码:Sub initialize()'声明定义VB...原创 2017-07-13 04:31:46 · 686 阅读 · 2 评论 -
数据分析(入门篇)-第一章-高效处理千万数据-Part1(Microsoft Access数据库)
大数据特点:Volume(数据量大), Variety(数据类型多样), Velocity(数据处理实时性强), Veracity(数据真实性)Access数据库窗口中包含6大对象:表、查询、窗体、报表、宏、模块(这和Oracle简直判若两物啊)导入数据的方法:直接导入、建立链接合并数据的方法:横向合并(即,多表关联查询)、纵向合并(数据集行数增加,列数不变)内连接、左连接原创 2017-07-05 22:40:22 · 2045 阅读 · 0 评论 -
数据分析(入门篇)-第一章-高效处理千万数据-Part2(Microsoft Query工具)
第一次使用Microsoft Query功能,感觉局限性相比Access、Oracle还是挺大的。简单的说,就是不好用。工欲善其事必先利其器,真是至理名言啊!局限性:同一Excel文件(iKb),可成功导入Access,但Microsoft Query读取时提示“包含不支持的格式”。不支持 count (distinct column)语法。原创 2017-07-05 23:36:09 · 699 阅读 · 0 评论 -
数据分析(入门篇)-第二章-玩转数据分析-Part1(Excel数据分析工具-PowerPivot)
用过了Oracle数据库+Toad客户端、Spotfire可视化软件,感觉PowerPivot最不能忍受的就是“慢”,用户体验很差啊。真是货比三家方知好啊。言归正传,学习笔记如下。1. PowerPivot四大优势:整合多数据源、处理海量数据、操作界面简洁、实现信息共享2. 简单数据分析:创建数据透视表——》多表关联分析——》字段计算分析——》函数计算3. 数据原创 2017-07-06 23:53:02 · 1853 阅读 · 0 评论 -
Excel在统计分析中的应用—第一章—统计基础与数据描述
没有系统学习过统计学,看到《Excel在统计分析中的应用》这本书,感觉值得一读。从今天开始,快速学习一下这本书。1. 总体和样本总体:对一组数据中的每一个元素进行观察样本:只对一部分元素进行观察归纳统计学/统计推断:如果样本可以很好地反映总体的特性,可通过样本的分析对总体下结论描述性统计/演绎统计学:仅描述和分析特定对象而不下结论、不推断2. 数据类型连续数原创 2017-07-29 14:54:51 · 2150 阅读 · 3 评论 -
学以致用——利用直方图分析个股涨幅(Excel+Spotfire)
看似简单的一张图,其背后可能是成千上万行的数据在做支撑。先提个问题,某支股票在过去十年来的月涨幅如何?大部分月份里,该股月涨幅表现怎样?在所有月份里,是涨的多还是跌得多?有朋友可能会说,这还用问吗?随便打开一个股票行情软件,看看月K线图不就行了吗?没错,看行情软件是简单快捷,但你有没有想过,如果你有收盘价、最高价、最低价等基础数据,你也可以绘制出一张K线图的。1. 获取原始原创 2017-07-29 22:27:02 · 2913 阅读 · 0 评论 -
Spotfire数据可视化分析-CSDN文章分析
采用内5W2H分析法,提出若干简单问题:1. 文章是在什么时间发布的?(细化到年、月、日、时、星期)2. 文章的阅读次数与发布时间有无关系?3. 哪些文章阅读量最大?源数据:Spotfire可视化展示:不可否认,Spotfire的确是很好用的报表工具,已经甩出Excel几条街了。原创 2017-07-08 09:52:54 · 1735 阅读 · 3 评论 -
数据分析(入门篇)-第二章-玩转数据分析-Part3(Excel数据分析工具库-直方图)
第一次使用Excel的数据分析功能绘制直方图,发现有比较严重的bug。从来没发现Excel会有如此严重的bug。正确的直方图:Excel自动绘制的直方图:修正方法:手动修改横坐标轴及累积百分比的数据引用。原创 2017-07-08 21:23:51 · 1157 阅读 · 0 评论 -
Spotfire经验总结—累积百分比(帕累托图)的绘制方法
在Excel中绘制柏拉图,可使用“数据分析”模块进行绘制。Spotfire中的图表类型中,并没有“柏拉图”这一选项,那么应该如何绘制呢?1. 图表类型需选择“Combination Chart”2. 需添加一列“Cumulative Sum”并修改公式为“Sum([阅读次数]) THEN Sum([Value]) OVER (AllPrevious([Axis.X])) / S原创 2017-07-08 22:38:01 · 9638 阅读 · 2 评论 -
数据分析(入门篇)-第二章-玩转数据分析-Part4(Excel数据分析工具库-抽样分析)
使用Excel“数据分析”模块中的抽样分析功能,抽取了本人的十篇关于Java的“有缘”文章。文章编号 文章标题73 Java源码-猜数字小游戏(Swing编程版)116 Java源码——对象序列化(对象的存储及读取)(Object Serialization)94 JHTP练习题及课题_第一章_计算机、互联网及Java简介133 JHTP小结_第十三章_图形及Jav原创 2017-07-08 22:57:29 · 585 阅读 · 0 评论 -
数据分析(入门篇)-第二章-玩转数据分析-Part5(Excel数据分析工具库-相关分析)
相关分析,看似简单,实则大有学问。一图胜千言,直接上图。后记:上图中包含了多种信息:1. 源数据2. 相关系数的计算公式(数学表达式)及利用Excel进行分解计算的过程3. 各因素的关系图(最直观,最简单,小孩都能看出三者是正相关的关系)4. 使用Excel数据分析模块中的“相关分析”所得结果(和2相互印证)原创 2017-07-09 00:07:42 · 542 阅读 · 0 评论 -
Spotfire简介
知乎上看到的,感觉写的不错,特此转载。https://www.zhihu.com/question/41444381转载 2017-07-09 00:21:21 · 5907 阅读 · 0 评论 -
数据分析(入门篇)-第二章-玩转数据分析-Part2(Excel数据分析工具库-描述性统计分析)
统计这部分知识,不是很熟悉。有必要认真看看了。原始数据:对阅读次数进行统计分析的结果:平均: 377.4965035标准误差: 37.75702863中位数: 223众数: 323标准差: 451.5083933方差: 203859.8292峰度: 20.17275139偏度: 3.95859362区域: 3230最小值原创 2017-07-08 20:14:30 · 1406 阅读 · 0 评论 -
数据分析(入门篇)-第三章-Show出你的数据-Part2(水晶易表)
在SAP官网上下载了半天,安装时提示输入产品密钥,发现邮件给我的code不能用。SAP,你能上点心吗?结合之前同事用BO、Connectivity,感觉SAP的产品怎么有点不靠谱啊。原创 2017-07-10 00:11:27 · 696 阅读 · 0 评论 -
学以致用——ikb知识库英文词条词频分析-Part2-大数据中高频词分析(Spotfire)
承上篇,统计好词的频率后,就需要进行词频分析了。由于最近工作中一直在使用Spotfire,感觉相当高大上,咱就把这个任务交给Spotfire来完成吧。分析结果如下:排名前一百高频词是:No.wordcount1ACCOUNT19382RIDER原创 2017-07-18 22:31:40 · 928 阅读 · 0 评论 -
学以致用——ikb知识库英文词条词频分析-Part1-数据提取(VBA)
课题描述:ikb系统中已录入了数万条记录,多为项目资料(集中在保险、制药两个行业)。这么多数据,能否分析出哪些次出现的次数最多?这些高频词有没有什么业务含义?有什么意义吗?众里寻他千百度,蓦然回首,那人却在灯火阑珊处。本来想在网上搜一下Excel中Frequency函数的原代码,却无意中找到了一段代码,稍作修改,即可帮我实现我长久以来的上述想法:词频分析。话不多说,直接分享原创 2017-07-18 22:16:39 · 844 阅读 · 0 评论 -
Spotfire开发经验——比率计算及多条件排除(sum() over及and (!A or !B))
其实这两个问题都是比较简单的,只是因为是用户提出的变更请求,第一次碰到,所以,一开始觉得比较难。第一个问题:热图制作过程中,要求显示符合特定条件的记录数所占比例。解决办法:1. 发现该条件为文字描述,如果用count(字段=条件)这种方式进行计算,似乎不起作用2. 增加计算列"字段flag",用于辅助计算目标结果(if (字段=条件), 1, 0)2. 增加原创 2017-07-31 13:52:41 · 2788 阅读 · 0 评论 -
Excel在统计分析中的应用—第二章—描述性统计-Part2-离中趋势
离中趋势常用方法有:方差、标准差、四分位数偏差和方差系数。1. 方差a. 求非组数据的方差Var()相比通过公式定义手动计算方差,使用该公式,可节省好几步(average(), power(), sum(), count())b. 求组数据的方差计算公式与非分组数据相似,需要使用频率调节权重。2. 标准差方差是基础数据的平方单位,对应量纲为原来的平方原创 2017-07-31 21:11:36 · 985 阅读 · 0 评论 -
学以致用——通过方差系数比较不同股票的估价离散程度
股价上升阶段,离散程度高往往表明上升幅度大,收益率高;下跌阶段,则反之。所以说,不能认为离散程度高,就一定是高风险,入市时机很关键。方差系数:样本的标准差与样本均值的比值以下为2017年1月至7月,几支个股的分析(仅作为学习用途,勿做他用!)。你能说方差系数(离散程度)越高,风险越高吗?在完成这个例子之前,我还真是这样想的。可见,自己动手练一练,好处多多,正所谓原创 2017-07-31 22:33:23 · 1604 阅读 · 0 评论