自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 收藏
  • 关注

原创 大数据告诉你,世纪佳缘都是谁在相亲(python爬虫&分析,附全部代码)
原力计划

公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料数据分析学习目录:一、Excel系列——四大常用函数及十大高级图表二、SQL系列——性能优化/多表关联/窗口分析函数等三、统计学系列——概率论/置信区间/相关/抽样等四、Pandas系列——数据读取/清洗/规整/分析实战等五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt

2020-05-24 17:48:50 1392 1

原创 贝叶斯⑤——搜狗新闻分类实战(jieba + TF-IDF + 贝叶斯)

分类过程:1、导入文件并用jieba分2、随机抽取训练和测试样本3、建立tf-idf词频权重矩阵4、朴素贝叶斯分类(采用多项式模型)数据集下载选取了搜狗新闻下财经,体育、教育等九大类别共90篇文章,本博文将使用朴素贝叶斯进行分类实战数据集下载:https://pan.baidu.com/s/1RvhuRVKbIYowoItlyfqMTA,密码:h5rf一、读取文件并用jieba分词...

2019-06-26 22:51:38 1474 6

原创 决策树应用实例③——银行借贷模型

银行借贷是基于分析历史按时还款、逾期或不还的用户群体的各自特征建立模型,未来借款用户只要符合符合借款要求,就给予借贷,如果不符合,则拒绝。本文将根据自建的一份包含借款人信息及银行是否借贷的数据集,创建一棵决策树,并进行预测,代码过程如下:一、导入数据# 导入库import pandas as pdimport numpy as npfrom sklearn.tree import De...

2019-06-22 19:45:01 4694 8

原创 决策树应用实例①——泰坦尼克号分类

泰坦尼克号是二分类问题,今天尝试用决策树进行分类步骤如下:1、导入数据集2、数据清洗:① 删除对分类无帮助的特征② 将某些字符串特征数值化③ 填补缺失值或删除3、对数据集用train_test_split切割成训练集和验证集4、用sklearn默认参数生成一棵普通的决策树,看训练集和验证集的评分5、通过GridSearchCV进行调参,得到最优的参数并生成最终的树6、用混淆矩阵...

2019-06-22 15:57:25 3679 2

原创 Kmeans聚类实例④——电商用户质量聚类分析(RFM)

聚类通常分为以下步骤:① 业务提出需求② 根据业务需求,找到核心的指标。有现成的模型的话(如RFM),可以直接按模型的指标,如果没有,先罗列出比较重要的指标③ 从数据库用SQL取出数据④ 对数据进行清洗,标准化/归一化/正则化⑤ 聚类,如果是现成的模型,则直接聚类即可,如果是拟定的指标,则对各指标进行相关性验证,剔除掉相关性较高的指标,再聚类⑥ 根据聚类结果,结合业务场景提供建议本篇...

2019-06-15 18:59:38 9964 7

原创 Pandas数据分析⑦——数据分析实例2(泰坦尼克号生存率分析)

Kaggle竞赛的“泰坦尼克号预测生还”是进行Pandas数据分析非常好的案例,虽然CSDN有很多大神已经做了非常高深的机器学习的建模研究,但是我还是想从一个比较基础的提升Pandas使用角度来做一篇总结~今天主要想了解的有:1、不同性别、舱位和年龄的分布情况2、不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征有哪些一、数据清洗①筛选列import pandas as p...

2019-06-10 17:35:26 2635 3

原创 Hive Sql 性能优化——看这一篇就够啦!

今天听组内SQL小王子分享了一篇Hive Sql性能优化的总结报告,甚觉精彩,赶紧来分享给大家!!一、尽量使用索引,避免全表查询① 在where 和 order by 常用的字段上创建索引,提升效率的核心!② where子句中尽量避免进行nul值判断,少使用!=,<>等操作符,等号左边避免函数、算数和其它表达式运算,这此操作都会导致索引无效,启动全表查询③ where 子句中将...

2019-05-29 22:34:10 4885

原创 如何预估一个产品的DAU? 这个方法又简单又实用 | 附Excel实操模板

公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料数据分析学习目录:一、Excel系列——四大常用函数及十大高级图表二、SQL系列——性能优化/多表关联/窗口分析函数等三、统计学系列——概率论/置信区间/相关/抽样等四、Pandas系列——数据读取/清洗/规整/分析实战等五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt

2020-05-29 09:51:18 1690 2

原创 只需1秒,用python开发Excel报表也太快了!
原力计划

作者:微信公众号(数据小斑马)数据报表开发是数据分析师一项非常重要的工作内容,不管是大公司的数据中台,还是小型公司的报表推送,Python都是实现报表开发的重要工具。本篇分成两部分,首先讲解Python操作Excel基础用法(建表,建sheet,插入数据,合并单元格,获取行列数等),后面结合一个实例讲解如何利用python进行报表开发一、Python操作Excel用法① 建立工作簿/建立工作表/插入值/保存excel用的是openpyx...

2020-05-17 15:13:03 2091

原创 用Excel函数制作迷你图?这技能简直不要太酷炫!| 薪技巧
原力计划

EXCEL图表系列:Excel数据分析常用函数①——查询函数Excel高级图表制作①——电池图/KPI完成情况对比图Excel高级图表制作②——帕累托图Excel高级图表制作③——漏斗图/转化路径图Excel高级图表⑦—自带高级感的瀑布图Excel高级图表⑧—波士顿矩阵分析图(四象限图)Excel数据分析高级技巧①——动态图表制作Excel数据分析高级技巧②——数据透视表本篇要...

2020-05-02 15:37:15 807

原创 工作积累10——推荐一本看过最好的数据分析的书

书名:《数据分析-企业的贤内助》,陈哲所著,已看2遍,是真正的数据分析人员写出来的,收获太多,框架整理如下:

2020-04-24 17:19:23 886 4

原创 电商积累①——库存的意义以及如何进行库存分析

一、什么是库存二、库存的意义1、提升发货时效,进而提升用户体验库存太少会导致:1、造成用户服务水平的下降,影响销售利润和企业信誉;2、造成生产系统原材料或其他物料供应不足,影响生产过程的正常进行;3、使订货间隔期缩短,订货次数增加,使订货(生产)成本提高;4、影响生产过程的均衡性和装配时的成套性三、库存相关指标库存数量:库存成本:在仓库存:在途库存:锁定库存:自由库存:...

2020-04-18 21:56:21 801

原创 关联算法①——《啤酒与尿布》购物篮分析

关联算法是通过支出度,置信度,提高度三个指标,寻找有相关性的商品或其它物品组合,最早是用在了沃尔玛超市的购物篮分析中。本篇文章梳理了购物篮分析的经典之作《啤机与尿布》的精华内容,希望能够对大家有所启发。一、销售额影响因素1、商品关联度商品关联度分析不只是特定商品之间,其实是特定品类之间,客户有喜新厌旧的心理,不应该将关联商品定死在某个商品(马尔科夫转移矩阵:描述不同品种商品的变化规律) ;通...

2020-04-17 09:20:55 2343

原创 个性推荐①——系统总结个性化推荐系统

本文是整理于个性推荐经典之作《推荐系统实战》,将会以十个大家最想问的问题,揭开个性化推荐系统的神秘面纱(文末附下电子书的下载链接)一、你觉得个性推荐系统是什么?分类查询,搜索引擎查询,再到个性推荐,都是解决信息过载的问题前两者是在用户有明确需求时,可以非常方便地找到自己感兴趣的信息,而个性推荐是要解决当用户没有明确需求,或者无法用文字进行描述时,根据用户的历史行为,推荐给他感兴趣的信息个性...

2020-04-17 09:19:45 1084

原创 SQL窗口函数不懂?五大应用场景让你一步到位

在窗口分析函数出现之前,存在很多 SQL 难以解决的问题,很多都要通过复杂的相关子查询完成,或到Excel中用函数处理2003年ISO SQL标准加入了窗口分析函数,使得这些难题轻松被攻克,大大提升了效率,减少了Excel卡死导致前功尽弃的情况本文从聚合/排序/极值/移动/切片五大场景来讲解窗口分析函数窗口分析函数,可以指定数据窗口进行统计分析,它和普通聚合函数的区别:① 窗口函数对每个组...

2020-04-08 20:21:44 532 3

原创 Excel图表—可攻可辅的面积图

本次要做的图为:说到要比较趋势,一般用折线图或者条形图比较多,面积图其实用得较少,但是折线图不太好比较绝对差异,条形图又很难进行太长周期的比较,这时面积图就凸显了它的优势,完全弥补了折线图和条形图的劣势。除此之外,面积图还能与折线图,条形图进行组合,创造出非常美观实用的其它图表。图一做法:1、建立辅助列1(无横坐标),与最后一列一样,一起画堆积面积图,会有一个小平台2、建立辅助列2...

2019-08-17 23:16:55 3222 3

原创 Excel图表—超级好用的Bullet图(KPI考核图)

本次做的图表如下:不知道大家有没有见过这种图,我是偶然在一本书上看到的,通常是HR和老板喜欢用这种图来看不同部门的KPI完成程度,做法其实很简单,只是这种基于基础图表的创新组合方式挺让人惊奇。做法:1、建立数据,因为是要做堆积条形图,如果一般是60,良好是75,优秀是90以上,那么组织数据时一般是60,良好是15,优秀是152、选择所有数据,插入堆积条形图,点击图表-选择数据-切换行列...

2019-08-17 22:36:35 5084 4

原创 Excel图表—灵活多变的不等宽柱形图

本次要做的图表如下:我相信大家对这种图应该是比较陌生的。。。因为作为数据分析师,看过的报表算多的了,这种图也是很少见到的,但一见到就深深爱上了。不等宽柱形图其实不太符合国人规规矩矩,方方正正的审美,所以如果不是在特定的场合下,建议不要使用。但在某一些场合,却是真的非它莫属。比如:要比较三个指标,其中一个指标是这两个指标相乘得到,典型的如销售额 = 客单价 * 购买人数,而相乘最习惯的展示就是...

2019-08-17 18:50:41 1476

原创 Excel图表—商务气息浓厚的滑珠图

本次要做的图表如下:这种图经常用在各大商业周刊中,可见滑珠图兼具解释性和美观性于一身。此种图经常用于进行不同组之间的各维度比较,比如17年和18年不同类别商品销售占比变化,男士,女士和儿童这三组群体在不同年份的销售变化等。遇到这种多类别对比,大家可能习惯用簇状条形图,如果对比维度是1-2个,还尚可,但是多于3个后,肉眼会很难比较,因此滑珠图就是很好的替代图表。做法:1、增加辅助系列,X为原...

2019-08-17 18:12:57 1877 1

原创 Excel图表—自带高级感的瀑布图

本次要做的图表如下:这种图叫做瀑布图,适合多因素影响分析,比如19年Q2比Q1销售额环比增长了30%,这其中正面影响因素有:扩大了采购广度,进行了促销活动,增加了推广费用,回头客的数量增多,也有可能存在一些负责因素,如销售人员离职率提升,网站出现bug等,如何简单清洗地表达出每一种因素对销售额的影响程度,这是瀑布图就非常合适了。先看下数据:...

2019-08-17 17:43:06 5685 1

原创 Excel图表—波士顿矩阵分析图(四象限图)

本次要做的图表如下:这种图学名叫做波士顿矩阵分析图,大白话就叫四象限图,大家比较耳熟能详的应该是确定事情优先级的重要-紧急图,四个象限分别为重要有紧急,重要不紧急,不重要紧急,不重要不紧急。这种图经常针对二个维度的散点图中,根据特定的分割线(均值,目标值,实际值等)将数据分为四类,让人一目了然。常用的场景为分析两个维度的变化,比如比较商品的库存天数和库存周转率,充值人数和充值 arppu,购物...

2019-08-17 17:25:12 12090 2

原创 Excel图表—条形图的高级做法

本篇制作图表如下:一、如何为不同条件的数据设立不同的格式?二、如何添加均线?三、如何将堆积和簇状柱形图组合?四、对于分类类别

2019-08-17 11:48:57 4638

原创 Excel图表⑤—数据可视化的极简之美

最近看了一本数据可视化书籍,叫《用数据讲故事》,完全颠覆了以往的做图观念。作者的图形极简却不失丰富性和美观性,让人看完欲罢不能啊。 这些先放上图片对比下我们的图:作者的图:在通读2遍后,我整理出了作者的设计精髓,分享给大家!共分为六步:① 对数据进行探索性分析和解释性分析,找到受众会真正在意且有分享价值的部分,并想好用一句话如何来概率② 选择适当图表,越是大众常用...

2019-08-07 15:41:56 2597

原创 工作积累⑨——从丁香医生增长看地推的重要性

丁香医生是丁香园旗下一款面向大众用户提供医疗健康服务的平台,为用户提供科普内容查询、在线咨询医生、处方续方、在线购药等医疗健康服务,创立于 2013 年,并且在近两年内持续发力,增长趋势迅猛一、丁香医生是怎么让用户放心在线上看病?① 质量保证三重审核② 服务周到医疗回归服务属性,不再是排队3小时,看病3分钟③ 数据决策数量量越大,越能开出准确的药方二、丁香医生是如何获得目标医生和用...

2019-07-30 20:31:02 334

原创 工作积累⑧——从星巴克送外卖看新零售的线下战争

2018年8月2日,星巴克与阿里巴巴集团在上海共同宣布达成全方位深度战略合作。从9月开始,依托阿里旗下饿了么成熟的配送体系,星巴克将在位于北京和上海重点商圈的约 150 家门店试运行外送业务,随后将逐步延伸至全国,计划于年底前覆盖 30 个主要城市的 2000 家以上门店。一、为什么星巴克一直不开启外卖模式?① 门店可以提升用户精神体验,外卖模式将会使这一体验遭到破坏② 对咖啡品质要求高,同...

2019-07-30 08:54:56 226

原创 工作积累⑦——从新零售和漏斗模型解读亚马逊增长策略

亚马逊已经成为世界上最大的电子商务公司,但是它仍然在保持高速增长。这背后的原因是什么?有没有值得国内电商公司学习的地方?增长官发表了一篇对亚马逊增长策略的深度好文,作者是在按照八大营销增长策略来写的,我尝试从电商收入模型 (收入 = 流量 × 转化率 × 客单价 × 复购率 )和新零售的角度来解读。一、流量① PPC广告购买流量 +...

2019-07-29 22:45:14 401

原创 工作积累⑥——从留存下降看小红书的精细化运营

作为一枚数据分析师,除了在技术上不断精进之外,更需要培养敏锐的业务嗅觉,能真正将技术运用于业务,实现业务的增长。因此,平时除了看各种技术博客之外,也会关注大量基于业务的数据分析文章,比如公众号《增长官》,数据分析网等,见贤思齐也。后续几篇我会将增长官上的精华文章的系统框架整理给大家,希望能够有所助益~~本篇是我在增长官看的第一篇,也是我认为写得最好的一篇,现在不知道为什么下架了,有点遗憾,幸好我...

2019-07-29 09:26:33 512

原创 工作总结③——数据分析师到底该如何分析?

经常在知乎上看到别人提问:该如何进行数据分析?数据分析有哪些方法?数据分析师到底是做什么的?微信读书上也有很多教你如何成为数据分析师的书籍,但是很多人看了后仍然云里雾里。本篇我就站在数据分析师的角度,来总结一下我对数据分析的理解,以及一些通用的分析理论,希望能够帮大家播开云雾见月明~一、数据分析师的工作内容在我看来,数据分析师主要有4件工作:1、日常数据监控这是最基础也是最重要的工作,每...

2019-07-24 22:33:32 880

原创 统计学⑤——假设验证

一、什么是假设验证?当你从广告中,从别人口中,从新闻上等得到一个结论时,你要判断这个结论是否可信,假设验证就是这样一种判断是否值得可信的方法。比如市面上很繁荣的IT培训,包你在三个月找到工作,这怎么验证真伪呢?先假设这句话是真的,再去选择一些参加过培训的人的,看找到工作的人有多少?如果都找到了那就值得信,但是由于各种各样的因素不太可能谁都找到,我们允许有一定的误差,假如5%,那就超过95%的都...

2019-07-21 09:03:22 772

原创 统计学④——置信区间怎么算

上一篇写了如何通过样本的均值和方差,也叫点估计量,去估计总体的均值和方差,给出的是一个精确值。但是仅仅依靠一个样本得出的假设就一定可靠吗?虽然我们已经尽量抽取无偏样本了,得到的结果已经是最佳的点估计量,但是也只能说很接近总体的真值,但是有多接近也不知道。因此,在给总体估计参数时,不是给一个精确值,而是一个范围,而且能保证总体参数有多大把握在这个范围,会比给一个精确值能令人信服的多,风险性也较小,...

2019-07-18 09:14:10 2174

原创 统计学③——总体与样本的差异在哪里

一、总体与样本定义总体:所研究的所有事件的集合样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论二、抽样方法我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。无偏样本的抽样方法:① 简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种② 分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样...

2019-07-16 22:42:13 940

原创 统计学②——概率分布(几何,二项,泊松,正态分布)

概率分布描述了一个给定变量的所有可能取值结果的概率,像上篇博文总结到,根据概率分布计算期望和方差如下:在X取值较小时这样还能算得出来,但是X取值非常多时,甚至取之不尽时(比如可以取1-正无穷),那这样该如何计算期望和方差呢?当然这难不倒我们历史上伟大的数学家们,他们经过大量实验发现了一些很特殊的概率分布,比如几何,二项,泊松,正太分布等,而这些期望和方差都有特定的方法,可是给我们节约了不少时...

2019-07-16 21:29:27 335

原创 统计学①——概率论基础及业务实战

一、统计学是什么?统计学分为两类,一类是描述性统计学,通过对数据的集中趋势和变异趋势的刻画来描述数据的分布情况,集中趋势有平均值,中位数和众数三个指标,变异趋势则有全距,四分位距,百分位距,方差,标准差等指标来衡量另一类是推断统计学,通过对样本的统计来推断总体的参数和置信区间,以及对多变量进行相关性分析和回归预测。用一句话就是:总结历史,预测未来二、概率论基础概率论是统计学中非常重要且基...

2019-07-15 21:35:30 372

原创 个性推荐③—基于物品的协同过滤算法及优化方案

上一篇总结了基于用户的协同过滤算法原理及优化方案,本篇则整理了另一种基于领域的算法:基于物品的协同过滤,以及这两种方法的异同点及适用范围一、算法原理① 计算物品之间的相似度② 基于物品的相似度和用户历史行为给用户生成推荐列表二、物品相似度计算通常认为物品相似,是因为物品在某些特征上相似,比如《琅琊榜》与《伪装者》在演员阵容上非常相似,因此会认为这两部剧很相似,这种认定相似的标准就叫基于内...

2019-07-13 15:09:22 608 2

原创 个性推荐②—基于用户协同过滤算法原及优化方案

个性推荐系统常用的有两种:基于领域的推荐算法和基于内容的过滤算法,前者又分为基于用户的协同推荐算法(userCF)和基于物品的协同过滤(itemCF),本篇重点介绍基于用户的协同推荐算法的原理、适用范围及优化方案一、算法步骤① 找到和目标用户相似的用户集合② 找到这个集合中用户喜欢的,且目标用户没有听过或产生过行为的物品二、用户相似度计算基于用户历史行为得到用户相似度以电商为例,如果两...

2019-07-13 12:22:14 818

原创 关联算法②——Apriori算法原理及python实现

一、关联规则关联规则,顾名思义,就是寻找事物之间的关联关系。比如《啤酒与尿布》中,在某个特定时间段,会出现啤酒与尿布同时出现在购物篮中的现象,且出现频率非常高。调研发现这是一群爱喝啤酒的奶爸群体。如果可以通过类似的方式挖掘更多特定的群体需求,就可以进行交叉销售或捆绑销售来提升销售额和利润。Apriori算法就是经典的寻找物品的关联算法。二、Apriori算法原理1、先了解几个概念项集 :包...

2019-07-10 22:55:29 876

原创 集成学习③——Sklearn-Adaboost库参数及实战

一、Adaboost库参数介绍Adaboost库分为AdaBoostClassifier(分类)和AdaBoostRegressor(回归),两者的参数相近,均包括Adaboost框架参数和使用的弱学习器参数,详细如下:1、框架参数① base_estimator: 弱学习器,AdaBoostClassifier和AdaBoostRegressor都有。理论上可以选择任何一个分类或者回归...

2019-07-06 17:05:36 1183 1

原创 集成学习②——Adaboost算法原理及python实现

一、AdaBoost算法原理上一偏博客总结过,集成学习基于弱学习器之间是否依赖分为Boosting和Bagging两类, Adaboost就是Boosting中的典型代表。AdaBoost是英文"Adaptive Boosting"(自适应增强)的缩写,它的自适应在于:基于每一个分类器的误差率,来更新所有样本的权重,前一个分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再次...

2019-07-06 15:22:14 619

原创 集成学习①——集成学习原理、分类和结合方法

一、集成学习的原理集成学习就是"博采众长",将一组弱学习器通过一定方法给合在一起得到强学习器,这个强学习器的泛化能力相对任何一个弱学习器都要好,甚至还有起到三个臭皮匠,赛过诸葛亮的效果这里有2个问题,有哪些弱学习器可以用?怎么结合?弱学习器:以分类来说,分类效果要优于随机分类,也就是准确率高于50%的学习器,且计算速度快,通常以决策树和神经网络为主,一组弱学习器可以是一样的,也可以不一样,目...

2019-07-06 11:41:48 1610

原创 最小二乘法&梯度下降法区别及python实现

一、最小二乘法先来解释几个概念拟合函数/估值函数:在回归问题中,当给定一组样本时,找到一个最佳的函数来匹配所有的样本,这个函数就是拟合函数/估值函数损失函数:判断函数拟合的好不好的函数,损失函数越小,说明拟合值与真实值越接近,误差越小,就越能用拟合函数来进行预测,损失函数的标准有以下几种:a) 残差和: 指拟合值与真实值的差的和,有正有负会存在抵消的情况,不能反应真实误差b) 残差绝对值...

2019-07-06 10:25:53 1115

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除