大数据分析
文章平均质量分 91
编程小白的逆袭日记
年近50仍然奋战在一线的软件工程师。25年软件行业从业经验,十多年软件项目经理经验,多年大数据分析团队经理经验。
喜欢数学,喜欢研究算法,喜欢探究,喜欢和志同道合的伙伴们交流。放弃内卷,在坡岛做一个快乐的程序员。
展开
-
[算法分析笔记]最小生成树 (Minimum Spanning Tree)- 贪婪算法 (Greed Algorithm)
一. 复习图(Graph)的表示法GraphG=(V,E)Graph G=(V,E)GraphG=(V,E)VVV是所有的顶点的集合EEE是所有的连接顶点的边的集合, EEE无向图, EEE包含的边是没有方向性的。有向图,EEE包含的边是有方向性的。图的一些属性∣E∣=O(V2)|E|=O(V^2)∣E∣=O(V2)如果G是连通的,即从任意两个顶点之间有通路存在,∣E∣>∣V∣−1|E|>|V|-1∣E∣>∣V∣−1lg(∣E∣)=θ(lg(∣V∣))lg(|E|)原创 2021-01-02 15:39:06 · 585 阅读 · 0 评论 -
[算法分析笔记] 平摊成本分析 (Amortized Analysis)的三种方法
什么是平摊分析?在分析一个对某序列的操作的成本时,我们会发现有些场合成本会比较低,而有些场合成本又会很高,平摊分析就是研究其每一趟操作的平均成本,而不关注于某一次的特定操作。平摊分析有以下几种分析方法:聚合分析会计分析势能分析聚合分析实例让我们通过动态表(Dynamic Table)的例子来学习聚合分析。动态表是一个哈希表(hash table)的实现方案, 其主要特征是动态的根据需要来增加表的空间, 适用于当我们初始时无法预知该表的长度。具体的操作步骤如下:初始状态表仅有一个元素原创 2020-12-24 21:24:44 · 2451 阅读 · 3 评论 -
[Tableau实用技巧] 复杂的组合计算
最近做的Tableau报告里遇到一个非常有意思的复杂组合计算。问题描述首先,来说一下业务逻辑。售后服务部门有两种服务业务,第一是免费的保修服务,第二是收费的保外服务。保修服务是指在保修期内,非客户原因造成的损坏,则可以提供免费维修。保外服务是指在保修期内因客户原因造成的损坏,和保修期外一切的损坏,提供有偿维修服务。因此,保内返修率计算公式: 保内维修量 / 保修期内产品量所有保修维修全部来自于保修期内产品,因此分母为保修期内产品量。保外返修率计算公式:保外维修量 / (保修期内产品量原创 2020-05-28 17:48:41 · 1526 阅读 · 0 评论 -
[每日算法15分钟] 生成斐波那契数列第N项
算法分析是我最喜欢的课程之一。一个精妙的算法,犹如一杯香浓的咖啡,让人意犹未尽。算法代码,python。今天分享的这个算法是生成斐波那契数列第N项。斐波那契数列(Fibonacci sequence)F0=0,F1=1,F2=1,...,Fn=Fn−2+Fn−1F_0=0, F_1 = 1, F_2 = 1, ... ,F_n = F_{n-2}+F_{n-1}F0=0,F1=1,F2=1,...,Fn=Fn−2+Fn−1写一个方法def fibonacci(n) 生成FnF_nFn原创 2020-05-19 22:05:01 · 728 阅读 · 1 评论 -
数据分析团队管理日常 - 数据分析项目的技术架构选择和成本预测
项目需求首先,描述一下该数据分析项目的需求。该项目通过对历史数据的分析, 建模,从而对预测未来的趋势。需要分析历史数据,必然需要从各个不同数据源获取不同的数据,并且整理成期望的格式。需要对数据建模,分析,则必然是有许多参数需要记录和调整。预测模型和预测算法经常会需要做一些局部的调整来适应业务的变化。数据分析专家,会经常需要改动预测参数和预测算法来调整预测结果,且数据分析专家不会任何编程...原创 2020-04-27 22:34:22 · 797 阅读 · 1 评论 -
使用EXCEL快速实现二参数威布尔分布拟合
最近我在公司里做了一个小项目,帮助产品部门建立一个数据模型来预测产品的维修率和返修成本,其中有一步需要估计二参数威布尔分布的参数。在网上看了一些论文,威布尔参数估计的方法有很多种,比如常见的有极大似然估计法,最大相关系数优化法,最小二乘法等等。 因为考虑我目前仅是做模型验证,因此我采用了计算量相对比较小的最小二乘法进行估算,并在EXCEL里利用趋势图直接获得相关参数。先来介绍一下威布尔分布(We...原创 2019-12-23 16:35:01 · 20328 阅读 · 7 评论