自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (24)
  • 收藏
  • 关注

原创 统计专业打怪升级参考指南(本科)

统计是一个古老的专业,中国的大部分院校都会有这样一个专业。它或许开在数学学院门下,或许开在经济学院门下,也可能单独作为一个学院叫统计学院。总而言之,它历史很悠久啦。最早是计划统计,主要用在经济领域,现在统计其实有很多细分,但是我在这里还是把它作为一个整体来介绍。下面是指南的正式内容:(1)本科一年级(青铜)(2)本科二年级(白银/黄金)(3)本科三年级(铂金/钻石)(4)本科四年级(王者)【注】:大四需要面对实习就业/升学/...

2022-03-20 11:01:48 361

原创 数据类实习应知道的事情

【目录】1、菜鸟入职,如何熟悉你未来的工作环境?2、新手上道,怎样弄清楚你所在的项目?3、代码小白,编程能力如何快速提升?4、数分嘴强王者,做数据分析如何才能贴近业务?5、理解困难户,文档和代码怎么写才能让被人看懂并使用?6、离职跑路,什么才是你需要重点交接的东西?【正文】1、菜鸟入职,如何熟悉你未来的工作环境?终于,拿到,工牌了!听完了企业文化的宣讲,签完了各种需要签的字,你成功领到了工牌,可以开始一段实习的旅程。接下来,你会联系上你的实习导师,屁颠屁颠

2022-03-20 10:59:20 361

原创 数据分析师岗位要求案例分析

【岗位要求案例】【分析】一、工作职责1、基于对业务的理解,搭建可以准确反映业务表现和健康程度的数据指标监控体系(1)职责总结:理解业务→ 结合业务选择指标 → 搭建能反映业务情况的指标体系;(2)需要掌握的能力:该企业的业务知识+常用业务模型+统计指标体系。2、有灵敏的商业嗅觉,善于沟通、能够深入了解业务问题和痛点,通过数据分析为业务决策、产品方向、运营策略提供数据支持(1)职责总结:从业务中发现问题和痛点来源→ 用数据分析的方法进行验证;...

2022-03-20 10:57:43 738

原创 关于普通数据分析师的成长思路设计

一、理论1、学术基础理论(1)数学基础课:主要包括《初高中数学》+《微积分》+《线性代数》+《概率论与数理统计》,任意教材均可。当然不是里面所有的东西都会用上,不过学会这些才能形成最基础的数学体系,有助于后续学习中高级的统计学。(2)初级统计学[1]推荐教材:贾俊平的《统计学》;[2]核心知识板块:描述统计学+推断统计学(区间估计、假设检验)+相关分析+回归分析+统计指数+时间序列分析。(3)中高级统计学[1]多元统计分析:推荐教材为高...

2022-03-20 10:56:35 2124

原创 深入解析标准化在降维中的应用

大家好,我是稀饭。今天给大家分享一下标准化在降维中的应用,内容源于毕业论文中的一部分研究拓展。对于标准化,相信大家已经不陌生了,一组数据中的某个数,减掉它所在的这组数据的均值,再除以这组数据的标准差,就可以得到对应的标准化分数,也叫z分数。z分数可以回答这样一个问题:“一个给定分数距离平均数多少个标准差”。在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。z分数是一种可以看出某分数在分布中相对位置的方法。在降维过程中,标准化也非常重要,很多降维算法的

2022-03-20 10:52:26 1547

原创 数据分析常用知识体系

数据分析常用知识体系【数据获取】一、获取原始数据1、从数据库/数据仓库中获取(数据库+数据仓库+ SQL提数)2、爬虫爬取(R语言爬虫+ Python爬虫)3、手工整理(问卷数据录入、数据表制作等)二、获取整理好的数据1、数据资源下载(统计局、经管之家等)2、数据资源调取(R语言内置数据集、Python内置数据集)【数据预处理】一、数据库1、常用数据库基础知识(Mysql、sqlServer、Oracle、Hbase + H...

2022-03-18 15:58:55 2754

原创 基于数据分类下的数据分析思路简介

我们在做数据分析的时候,往往首先想到的是各种方法,比如传统统计学的方法、多元统计的方法、机器学习的方法等等。但是今天我要说的是,我们在做数据分析的时候,应该首先考虑清楚数据的分类,即先对数据做定性的判断,再选择合适的方法去进行处理。那么数据分类有哪几种分类思路呢,下面做了说明:1、数据结构化程度上分析数据从类型上可以分为结构化的数据、非结构化和半结构化的数据。结构化的数据往往又有几种分类方式,比如按数据的属性可以分为数值型数据、分类型数据;按照数据与时间的关系,可以分为横截面数据、时间序列数

2022-03-18 15:57:58 670

原创 聚类与RFM模型 —— 从5月的一道腾讯数据分析面试题说起

2020年5月份的时候曾经投过腾讯的数据分析实习,中午投的简历,午觉睡醒就被call,没有HR通知,南山必胜客直接就来技术面。当时准备的还不够充分,半小时后就感谢充值了,不过里面有一道题倒是想在今天拿来说一说,也和我的近期实习相关联。问题由腾讯面试官所在组的业务问题引入,具体的内容记不清了,但主要问的是RFM模型和聚类的融合。抽象表达一下就是:某个业务场景,简化为RFM模型,基于RFM模型的指标结构,做聚类,完成用户分群。先简要介绍一下RFM模型吧。RFM模型是由美国数据库营销研究所的Art

2022-03-18 15:56:07 568

原创 聊一聊时间序列聚类

今天来聊一聊时间序列,嗯……为什么聊这个呢,因为近期处理的都是时间序列数据。由于组里是做事后验证的,所以常用的方法其实还是以描述型为主,较少涉及建模预测。当然,今天要讲的内容和大家常看的时间序列分析的内容不一样,这次要讲的是时间序列数据和聚类算法的结合,或许有些冷门。稍微接触过一些聚类算法的朋友应该都知道,聚类嘛,关键在于求距离矩阵。无论你是用普普通通的欧氏距离,还是用高级的JS散度,总是为了知道各个数据点之间有多大的差异,这种差异就是用距离矩阵来衡量的。那么普通的横截面数据的聚类大家都清楚,无非就

2022-03-18 15:54:30 4990

原创 热门算法总结 —— AP聚类

1、算法简介(1)概述:AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚类算法。该算法无需事先定义类数,而是在迭代过程中不断搜索合适的聚类中心,自动从数据点间识别类中心的位置及个数,使所有的数据点到最近的类代表点的相似度之和最大。算法开始时把所有的数据点均视作类中心,通过数据点间的“信息传递”来实现聚类过程。与传统的K-均值算法对初始类中心选择的敏感性相比,AP算法是一种确定性的聚类算法,多次独立运

2022-03-18 15:52:30 5458 1

原创 实际业务中的数据分析流程和痛点

平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是:在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有了一份完整加上了标签的训练数据集,通过建立一些判别模型(如Logistic回归、决策树等),就可以完成模型的训练,然后在测试集上验证模型的效果,当评价指标尚可的时候,就拿来作为新数据集的识别模型。我们能较快地使用一些分析工具,如Python、R来实现上面的分析过程,有一个重要的前提,就是数据集

2022-03-18 15:50:38 3715

原创 关于实际业务中的数据分析

有过很多关于数据分析的文章,里面会对某个业务场景进行建模和处理。在接触实际业务后,发现这些分析内容,从方法论和模型上并没有什么问题,但是处理的业务场景却过于简单了,实际当中,方法和模型甚至要更普通和弱化,但对业务场景的抽象却远远比纸上谈兵中所说的那些复杂的多。很多时候我们在公众号里看别人写的内容,会以一个“出现A→ 从而B→ 所以C”的这种模式去开展ta的论述。这样的分析思路没有问题,但是在实际中仅仅做到这样的分析是不够的。在实际业务中,“出现A”从来都不是一个事件真正起始环节,在分析的时候,往..

2022-03-18 15:49:21 113

原创 热门算法总结 —— DFGS

1、算法简介(1)概述:DFGS是一种拟牛顿优化算法。拟牛顿法是针对牛顿法中海塞矩阵迭代过程中不一定正定所提出来的改进方法。即通过构造一个与海塞矩阵相差不太远的正定矩阵作为其替代。此外,拟牛顿法可以迭代更新海塞逆矩阵,而不是在每一时刻都重新进行逆矩阵的计算。拟牛顿法常用的计算规则包括DFP算法、BFGS算法、Broyden算法、SRI算法等。可以证明,当初始点离最优点足够近时,拟牛顿法和牛顿法具有同样的二次收敛速率。(2)主要用途:解优化问题,求最优参数值。(3)优缺点[1]优点:有拟牛顿.

2022-03-18 15:47:20 848

原创 热门算法总结 —— DPCA

1、算法简介(1)概述:密度峰值聚类算法(DPCA)是一种可以发现非凸簇类的新型聚类算法,该算法的核心思想建立在对簇类中心点或者密度峰值点的两个重要假设之上:[1]假设一:簇类中心点的局部密度大于其周围相邻点的局部密度;[2]假设二:簇类中心点与其他中心点间有着相对较大的距离。上述两种假设在给出簇类中心点描述的同时,也给出了一种检测中心点的准则。该算法的核心思想在于对聚类中心点的计算,聚类中心点具有本身密度大和与其他密度更大的数据点之间的距离相对更大的特点。算法首先通过使用一截断距...

2022-03-18 15:45:21 2659

原创 热门算法总结 —— Slope One

1、算法简介(1)概述:Slope One是一种基于评分的协同过滤算法。协同过滤是通过计算用户间偏好的相似性,在相似用户的基础上自动的为目标用户进行过滤和筛选,其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户,其对信息的需求也是相似的。协同过滤常常用于推荐系统的设计。基于评分的Slope One算法具有简单、易懂、易于维护和执行、及时更新性等特点。与其他的个性化推荐算法相比,该算法不计算项目之间的相似度,而是用一种简单的线性回归模型进行预测(可以扩展)。算法易于实现,计算速度快,可.

2022-03-18 15:40:49 672

原创 因果推断:断点回归应用于业务数据分析的思路

因果推断是目前学术界和业界都在研究的热门内容。在常用的数据分析方法中,关注的是事件之间的相关性,而无法去识别事件之间的因果性,而很多时候在做决策与判断的时候,我们需要的是因果性。比如,我们想知道A事件的发生是否会导致B事件的出现,这种“导致”实际上是一种因果关系,而不仅仅是相关关系。目前,因果推断应用于业务数据分析的方法有很多,本文主要介绍一下因果推断中的“断点回归”。断点回归是自然实验中的一种观察方法,简单理解就是在回归过程中,观察在临界点处是否出现“断点”,并分析引起“断点”的政策因素P对回归的

2022-03-09 19:54:02 2341

原创 投入产出核算的知识应用于业务数据分析的思路

《国民经济核算》是经济统计学本科生的重要课程,在这门课程里会涉及到一个章节,叫做“投入产出核算”。该章节的核心是编制一个投入产出表,用来搭建经济学中理论和事实之间的桥梁。投入产出核算反映了经济中的作用关系。在经济的任何一点上,一个事件的影响都是通过把整个体系联结在一起的那种交易链条,而一步一步地到达其他经济部门。投入产出表相当于一个有关整体经济的比率表,可以尽量详细地从数量关系方面来了解整个经济体系的内部结构,有助于分析当前的经济理论问题或预测未来的发展情况。在实际的业务数据分析中,所分析的

2022-03-09 19:52:16 744

原创 SQL中的日活与登陆问题

0、表的结构(部分数据)select * from user_log;2、求日活(保留user_id)select date(log_time) as log_time, user_id -- 对两个字段分别group by去重即可from user_loggroup by 1,2;【注】:这里展示部分数据。3、求连续登陆3天及以上的人群Step 1 因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重;Step 2...

2022-03-09 19:49:18 484 2

原创 3000字长文:探讨报销系统使用满意度的NPS指标设计

NPS

2022-03-09 19:43:16 430

原创 2000字长文:探讨报销系统中的数据分析框架设计

报销系统数据分析的逻辑

2022-03-08 22:13:50 316

国民经济核算课本笔记.pdf

国民经济核算课本笔记.pdf

2022-03-18

数理统计(茆诗松第二版笔记).pdf

数理统计学

2022-03-18

数学建模方法的整理手册

数学建模方法的整理手册

2022-03-18

金融计量复习(期中).pdf

金融计量经济学期中考试复试手册

2022-03-18

山东财经大学432考研资料

山东财经大学432考研资料

2022-03-18

厦大经院复试那些事.pdf

复试指南

2022-03-18

经济统计本科知识体系.pdf

经济统计本科知识体系.pdf

2022-03-18

应用统计(432)考研复试指南.pdf

应用统计(432)考研复试指南.pdf

2022-03-18

江西财经大学应用统计432考研复习全书

江西财经大学应用统计432考研复习全书

2022-03-18

贝叶斯考试复习.pdf

贝叶斯

2022-03-11

机器学习和数据挖掘-十大算法.rar

十大算法推导

2022-03-11

用商业案例学R语言数据挖掘-学习笔记.pdf

商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。 本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。 本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材

2022-03-11

MCMC和EM算法.pdf

算法逻辑推导

2022-03-11

Eviews计量经济学基础操作指令.pdf

在 workfile 中右键→new object→在 typeof object 中选择 series→在 name for theobject 中输入该 series 的名字(例如 x1→在打开的 series 中选择 edit+进行编辑

2022-03-11

《活用数据驱动业务的数据分析实战-学习笔记》.pdf

本书分为数据思维和案例解析两个部分,对“怎么想”和“怎么做”两大分析痛点问题进行剖析和解答。基于知先行后的考虑,前3章首先对“怎么想”的问题进行解答,通过明确分析问题、开启分析思路、打开分析视角,依次回答数据思维3个核心问题:解决什么问题?分析哪些内容?分析到何种程度?结合11个思维练习的案例,引导读者对业务需求进行思考,明确研究内容和分析方法。

2022-03-11

《Hive编程技术与应用》学习笔记.pdf

全书共10章:前6章系统讲解Hive工作原理、特点,Hive架构,HiveQL表操作,HiveQL数据操作,HiveQL查询,Hive安装与配置,Hive自定义函数;第8~10章是综合案例部分,通过案例帮助读者掌握整个大数据项目的开发流程,包括数据清洗、数据处理、数据导入导出。本书知识结构简单明了,案例生动具体,内容设计新颖,思路清晰。

2022-03-11

SPSS基础操作指令.pdf

SPSS基础操作指令.pdf

2022-03-09

数据分析核心知识点总结 —— SQL.pdf

一、SQL 增删改语句 二、SQL 查询语句 三、视图 四、索引 五、约束 六、触发器 七、存储过程 八、事务 九、函数

2022-03-09

数据分析核心知识点总结 —— R语言.pdf

一、数据查看 二、数据预处理 三、描述统计与基础可视化 四、推断统计 五、回归分析 六、判别分析 七、聚类分析 八、主成分分析 九、因子分析 十、时间序列分析 十一、关联规则 十二、决策树 十三、贝叶斯 十四、支持向量机 十五、神经网络

2022-03-09

数据分析核心知识点-机器学习

…… 4 、降维 (1)主成分分析(PCA) (2)因子分析 (3)对应分析 (4)典型相关分析 (5)LDA 降维 (6)低维嵌入(基于 MDS) (7)非线性降维 5 、关联规则 (1)Apriori (2)FP-growth (3)Eclat 6 、决策树 (1)ID3 (2)C4.5 (3)CART 7 、集成学习 (1)随机森林 (2)AdaBoost (3)GBDT (4)XGBoost 8 、贝叶斯分类器 (1)朴素贝叶斯 (2)贝叶斯网 9 、支持向量机 (1)支持向量机简介 (2)SVM 的构建流程 10 、神经网络 (1)BP 神经网络 (2)RBF 神经网络 (3)ART 神经网络 (4)SOM 神经网络 (5)受限 Boltzmann 机(RBM 神经网络) (6)卷积神经网络(CNN 神经网络) (7)长短期记忆网络(LSTM 神经网络) (8)Seq2Seq 网络 11 、概率图模型 (1)隐马尔可夫模型(HMM) (2)马尔可夫随机场(MRF) (3)条件随机场(CRF) 12 、最优化 (1)牛顿迭代 (2)梯度下降 (3)EM 算法 ……

2022-03-08

python数据分析与数据化运营笔记

学习笔记(整本书的)

2022-03-08

厦大应用统计432考研专业课全书

第一章 432 点 核心知识点 ……………………………… 1 第二章 432 题 简答题 …………………………………… 13 第三章 432 题 计算题 …………………………………… 47 第四章 432 题 模拟题 …………………………………… 65

2022-03-08

互联网数据分析岗位校招备战手册

第一章 互联网数据分析岗位的基本情况及备战宏观规划 …………………………… 1 1.1 岗位的不同类型及对应的笔面试特点 1.2 主流互联网公司的数据分析校招岗位的基本情况分析 1.3 备战宏观规划 第二章 数据分析岗位的核心知识框架 ………………………………………………… 9 第三章 核心知识点整理:统计学综合 ………………………………………………… 22 第四章 核心知识点整理:SQL ………………………………………………………… 49 第五章 核心知识点整理:数据库 ……………………………………………………… 60 第六章 核心知识点整理:基础的互联网业务知识 …………………………………… 85 第七章 核心知识点整理:数据挖掘与机器学习 ……………………………………… 109 第八章 核心知识点整理:Python …………………………………………………… … 180 第九章 核心知识点整理:其他 ………………………………………………………… 202 第十章 技术面模拟题 …………………………………………………………………… 238

2022-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除