自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据指象

以指象为言语,故在於得一类而达之也。

  • 博客(5)
  • 收藏
  • 关注

原创 四招技巧,秒杀复杂的SQL

一个问题的复杂度分为两种:本质复杂度和偶然复杂度,本质复杂度就是必须要做的事,偶然复杂度多为偶然的路径选择而遇到的额外的事,多余做的事情。类比写SQL做数据分析,SQL模型很复杂多半来自偶然复杂性:比如一个指标模棱两可的口径,只需要和需求方沟通清楚,确定口径即可,没必要埋头苦干,苦思两全的方法这么做多半没有价值。避免路径依赖,固守老方法而忽略新的高效的工作方法,要多想多借鉴优秀的经验来提高工作效能。总结了几种SQL的高级写法,让SQL更顺滑。普通版sql VS 高级版sql,一见便知…1,学会使用C

2021-06-19 14:56:55 461

原创 一件利器:发现“数据亮点”不费力

数据分析最头疼的不是缺少分析思路,而是面对多维度大量数据,总需要做很多重复的工作,往往最后自己的辛苦工作却没有产出任务实际意义的价值。实践出真知,面对如下的数据:年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值,避免局限在自己的技能树之下,费千般力不得一分好:**用EXCEL开始手动处理,对列与列之间做重复的相关性校验,N列的数字我们需要做 次操作;探查每一列值域的分布,可能需要做N次这样的操作;偶然我们还会因为NULL值而掉进坑里;最头疼的是摸着石头过河,无法找到数据探查的信息点

2021-06-19 14:53:30 219

原创 小而美的民主算法:PageRank

​了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。1,PR的计算原理:网络世界由万万千千,千千万万的网页链接而成的,一个网页通过出链和入链链接着一个或多个网页。出链指的是网页中可以跳转出去的链接,入链指的是跳进网页的链接从图中我们很容易看出,网页Page1的出链有4个,网页Page1的入链有2个。用拓扑图来描述网页之间的关系,复杂交错的链接构建了一个庞大的互联系统,简称为“互联网”。一个网页的影响力是所有入链集合的网页影响力

2021-06-19 14:42:37 118

原创 箴言:统计学的智慧七柱

《旧约.箴言》写道:“智慧建造了房屋,雕琢了七根柱子。”建造智慧的房屋欢迎寻求知识的人一起庐舍谈天,阐明统计推理的核心思想及其七个原则。1,均值均值(聚合)【定向减少或压缩数据的价值】,最小二乘法及其衍生方法的本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。把数据集中的个体值进行统计汇总,概括出的信息可以超越个体。甚至核密度估计和各类现代平化器在本质上也是均值...

2019-11-09 09:48:10 1658

原创 入门指南:菜鸟如何学习数据分析?

温馨提示:请先喝一杯水,因为内容太干;1,数据分析的重要性当你选择要学数据分析的时候,你一定知道数据分析的重要性赋予自己一技之长,安生立命,养家糊口创造价值,实现自我价值大势所趋,顺势而为,大放异彩从数据中提取知识的研究,进行富有创造性的查询和分析,描述客观事实,推演预测未知如果想简单的了解,数据预测的逻辑,可以阅读下文戏谈《长安十二时辰》的大案牍术2,兴趣是最好的老师当你开始...

2019-11-09 09:34:01 455

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除