cindy407的博客

私信 关注
数据小斑马
码龄3年

浙大硕士毕业,互联网数据分析师,有电商、游戏和直播行业背景,喜欢深入业务,也喜欢挖掘技术,希望和大家可以多多交流

  • 309,967
    被访问量
  • 87
    原创文章
  • 15,514
    作者排名
  • 726
    粉丝数量
  • 毕业院校 浙大
  • 于 2018-08-31 加入CSDN
获得成就
  • 博客专家认证
  • 获得357次点赞
  • 内容获得111次评论
  • 获得1,763次收藏
荣誉勋章
兴趣领域
  • #人工智能
    #数据分析
TA的专栏
  • Pandas
    9篇
  • 电商积累
    1篇
  • SQL
    9篇
  • 决策树
    8篇
  • Kmeans
    4篇
  • Excel
    22篇
  • Matplotlib
    3篇
  • Seaborn
    2篇
  • 贝叶斯
    6篇
  • SVM
    3篇
  • 神经网络
    4篇
  • 集成算法
    3篇
  • 关联算法
    2篇
  • 个性推荐
    3篇
  • 统计学
    5篇
  • 业务积累
    7篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

如何预估一个产品的DAU? 这个方法又简单又实用 | 附Excel实操模板

公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料数据分析学习目录:一、Excel系列——四大常用函数及十大高级图表二、SQL系列——性能优化/多表关联/窗口分析函数等三、统计学系列——概率论/置信区间/相关/抽样等四、Pandas系列——数据读取/清洗/规整/分析实战等五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt
原创
2170阅读
2评论
1点赞
发布博客于 9 月前

大数据告诉你,世纪佳缘都是谁在相亲(python爬虫&分析,附全部代码)

公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料数据分析学习目录:一、Excel系列——四大常用函数及十大高级图表二、SQL系列——性能优化/多表关联/窗口分析函数等三、统计学系列——概率论/置信区间/相关/抽样等四、Pandas系列——数据读取/清洗/规整/分析实战等五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt
原创
1787阅读
2评论
5点赞
发布博客于 9 月前

只需1秒,用python开发Excel报表也太快了!

作者:微信公众号(数据小斑马)数据报表开发是数据分析师一项非常重要的工作内容,不管是大公司的数据中台,还是小型公司的报表推送,Python都是实现报表开发的重要工具。本篇分成两部分,首先讲解Python操作Excel基础用法(建表,建sheet,插入数据,合并单元格,获取行列数等),后面结合一个实例讲解如何利用python进行报表开发一、Python操作Excel用法① 建立工作簿/建立工作表/插入值/保存excel用的是openpyx...
原创
2732阅读
1评论
5点赞
发布博客于 9 月前

用Excel函数制作迷你图?这技能简直不要太酷炫!| 薪技巧

EXCEL图表系列:Excel数据分析常用函数①——查询函数Excel高级图表制作①——电池图/KPI完成情况对比图Excel高级图表制作②——帕累托图Excel高级图表制作③——漏斗图/转化路径图Excel高级图表⑦—自带高级感的瀑布图Excel高级图表⑧—波士顿矩阵分析图(四象限图)Excel数据分析高级技巧①——动态图表制作Excel数据分析高级技巧②——数据透视表本篇要...
原创
988阅读
0评论
2点赞
发布博客于 10 月前

电商积累①——库存的意义以及如何进行库存分析

一、什么是库存二、库存的意义1、提升发货时效,进而提升用户体验库存太少会导致:1、造成用户服务水平的下降,影响销售利润和企业信誉;2、造成生产系统原材料或其他物料供应不足,影响生产过程的正常进行;3、使订货间隔期缩短,订货次数增加,使订货(生产)成本提高;4、影响生产过程的均衡性和装配时的成套性三、库存相关指标库存数量:库存成本:在仓库存:在途库存:锁定库存:自由库存:...
原创
982阅读
0评论
3点赞
发布博客于 10 月前

SQL窗口函数不懂?五大应用场景让你一步到位

在窗口分析函数出现之前,存在很多 SQL 难以解决的问题,很多都要通过复杂的相关子查询完成,或到Excel中用函数处理2003年ISO SQL标准加入了窗口分析函数,使得这些难题轻松被攻克,大大提升了效率,减少了Excel卡死导致前功尽弃的情况本文从聚合/排序/极值/移动/切片五大场景来讲解窗口分析函数窗口分析函数,可以指定数据窗口进行统计分析,它和普通聚合函数的区别:① 窗口函数对每个组...
原创
700阅读
3评论
3点赞
发布博客于 10 月前
Excel高级图表制作④——控件+Offset组合,让图表真正动起来!
发布Blink于 1 年前

Excel图表—可攻可辅的面积图

本次要做的图为:说到要比较趋势,一般用折线图或者条形图比较多,面积图其实用得较少,但是折线图不太好比较绝对差异,条形图又很难进行太长周期的比较,这时面积图就凸显了它的优势,完全弥补了折线图和条形图的劣势。除此之外,面积图还能与折线图,条形图进行组合,创造出非常美观实用的其它图表。图一做法:1、建立辅助列1(无横坐标),与最后一列一样,一起画堆积面积图,会有一个小平台2、建立辅助列2...
原创
3773阅读
3评论
1点赞
发布博客于 2 年前

Excel图表—超级好用的Bullet图(KPI考核图)

本次做的图表如下:不知道大家有没有见过这种图,我是偶然在一本书上看到的,通常是HR和老板喜欢用这种图来看不同部门的KPI完成程度,做法其实很简单,只是这种基于基础图表的创新组合方式挺让人惊奇。做法:1、建立数据,因为是要做堆积条形图,如果一般是60,良好是75,优秀是90以上,那么组织数据时一般是60,良好是15,优秀是152、选择所有数据,插入堆积条形图,点击图表-选择数据-切换行列...
原创
5756阅读
4评论
1点赞
发布博客于 2 年前

Excel图表—灵活多变的不等宽柱形图

本次要做的图表如下:我相信大家对这种图应该是比较陌生的。。。因为作为数据分析师,看过的报表算多的了,这种图也是很少见到的,但一见到就深深爱上了。不等宽柱形图其实不太符合国人规规矩矩,方方正正的审美,所以如果不是在特定的场合下,建议不要使用。但在某一些场合,却是真的非它莫属。比如:要比较三个指标,其中一个指标是这两个指标相乘得到,典型的如销售额 = 客单价 * 购买人数,而相乘最习惯的展示就是...
原创
1626阅读
0评论
3点赞
发布博客于 2 年前

Excel图表—商务气息浓厚的滑珠图

本次要做的图表如下:这种图经常用在各大商业周刊中,可见滑珠图兼具解释性和美观性于一身。此种图经常用于进行不同组之间的各维度比较,比如17年和18年不同类别商品销售占比变化,男士,女士和儿童这三组群体在不同年份的销售变化等。遇到这种多类别对比,大家可能习惯用簇状条形图,如果对比维度是1-2个,还尚可,但是多于3个后,肉眼会很难比较,因此滑珠图就是很好的替代图表。做法:1、增加辅助系列,X为原...
原创
2161阅读
1评论
1点赞
发布博客于 2 年前

Excel图表—自带高级感的瀑布图

本次要做的图表如下:这种图叫做瀑布图,适合多因素影响分析,比如19年Q2比Q1销售额环比增长了30%,这其中正面影响因素有:扩大了采购广度,进行了促销活动,增加了推广费用,回头客的数量增多,也有可能存在一些负责因素,如销售人员离职率提升,网站出现bug等,如何简单清洗地表达出每一种因素对销售额的影响程度,这是瀑布图就非常合适了。先看下数据:...
原创
6571阅读
1评论
1点赞
发布博客于 2 年前

Excel图表—波士顿矩阵分析图(四象限图)

本次要做的图表如下:这种图学名叫做波士顿矩阵分析图,大白话就叫四象限图,大家比较耳熟能详的应该是确定事情优先级的重要-紧急图,四个象限分别为重要有紧急,重要不紧急,不重要紧急,不重要不紧急。这种图经常针对二个维度的散点图中,根据特定的分割线(均值,目标值,实际值等)将数据分为四类,让人一目了然。常用的场景为分析两个维度的变化,比如比较商品的库存天数和库存周转率,充值人数和充值 arppu,购物...
原创
14209阅读
2评论
0点赞
发布博客于 2 年前

Excel图表—条形图的高级做法

本篇制作图表如下:一、如何为不同条件的数据设立不同的格式?二、如何添加均线?三、如何将堆积和簇状柱形图组合?四、对于分类类别
原创
5385阅读
0评论
3点赞
发布博客于 2 年前

Excel图表⑤—数据可视化的极简之美

最近看了一本数据可视化书籍,叫《用数据讲故事》,完全颠覆了以往的做图观念。作者的图形极简却不失丰富性和美观性,让人看完欲罢不能啊。 这些先放上图片对比下我们的图:作者的图:在通读2遍后,我整理出了作者的设计精髓,分享给大家!共分为六步:① 对数据进行探索性分析和解释性分析,找到受众会真正在意且有分享价值的部分,并想好用一句话如何来概率② 选择适当图表,越是大众常用...
原创
3012阅读
0评论
7点赞
发布博客于 2 年前

工作积累10——推荐一本看过最好的数据分析的书

书名:《数据分析-企业的贤内助》,陈哲所著,已看2遍,是真正的数据分析人员写出来的,收获太多,框架整理如下:
原创
1022阅读
4评论
5点赞
发布博客于 10 月前

工作积累⑨——从丁香医生增长看地推的重要性

丁香医生是丁香园旗下一款面向大众用户提供医疗健康服务的平台,为用户提供科普内容查询、在线咨询医生、处方续方、在线购药等医疗健康服务,创立于 2013 年,并且在近两年内持续发力,增长趋势迅猛一、丁香医生是怎么让用户放心在线上看病?① 质量保证三重审核② 服务周到医疗回归服务属性,不再是排队3小时,看病3分钟③ 数据决策数量量越大,越能开出准确的药方二、丁香医生是如何获得目标医生和用...
原创
379阅读
0评论
1点赞
发布博客于 2 年前

工作积累⑧——从星巴克送外卖看新零售的线下战争

2018年8月2日,星巴克与阿里巴巴集团在上海共同宣布达成全方位深度战略合作。从9月开始,依托阿里旗下饿了么成熟的配送体系,星巴克将在位于北京和上海重点商圈的约 150 家门店试运行外送业务,随后将逐步延伸至全国,计划于年底前覆盖 30 个主要城市的 2000 家以上门店。一、为什么星巴克一直不开启外卖模式?① 门店可以提升用户精神体验,外卖模式将会使这一体验遭到破坏② 对咖啡品质要求高,同...
原创
244阅读
0评论
0点赞
发布博客于 2 年前

工作积累⑦——从新零售和漏斗模型解读亚马逊增长策略

亚马逊已经成为世界上最大的电子商务公司,但是它仍然在保持高速增长。这背后的原因是什么?有没有值得国内电商公司学习的地方?增长官发表了一篇对亚马逊增长策略的深度好文,作者是在按照八大营销增长策略来写的,我尝试从电商收入模型 (收入 = 流量 × 转化率 × 客单价 × 复购率 )和新零售的角度来解读。一、流量① PPC广告购买流量 +...
原创
505阅读
0评论
1点赞
发布博客于 2 年前

工作积累⑥——从留存下降看小红书的精细化运营

作为一枚数据分析师,除了在技术上不断精进之外,更需要培养敏锐的业务嗅觉,能真正将技术运用于业务,实现业务的增长。因此,平时除了看各种技术博客之外,也会关注大量基于业务的数据分析文章,比如公众号《增长官》,数据分析网等,见贤思齐也。后续几篇我会将增长官上的精华文章的系统框架整理给大家,希望能够有所助益~~本篇是我在增长官看的第一篇,也是我认为写得最好的一篇,现在不知道为什么下架了,有点遗憾,幸好我...
原创
596阅读
0评论
0点赞
发布博客于 2 年前

工作总结③——数据分析师到底该如何分析?

经常在知乎上看到别人提问:该如何进行数据分析?数据分析有哪些方法?数据分析师到底是做什么的?微信读书上也有很多教你如何成为数据分析师的书籍,但是很多人看了后仍然云里雾里。本篇我就站在数据分析师的角度,来总结一下我对数据分析的理解,以及一些通用的分析理论,希望能够帮大家播开云雾见月明~一、数据分析师的工作内容在我看来,数据分析师主要有4件工作:1、日常数据监控这是最基础也是最重要的工作,每...
原创
1352阅读
0评论
11点赞
发布博客于 2 年前

统计学⑤——假设验证

一、什么是假设验证?当你从广告中,从别人口中,从新闻上等得到一个结论时,你要判断这个结论是否可信,假设验证就是这样一种判断是否值得可信的方法。比如市面上很繁荣的IT培训,包你在三个月找到工作,这怎么验证真伪呢?先假设这句话是真的,再去选择一些参加过培训的人的,看找到工作的人有多少?如果都找到了那就值得信,但是由于各种各样的因素不太可能谁都找到,我们允许有一定的误差,假如5%,那就超过95%的都...
原创
896阅读
0评论
2点赞
发布博客于 2 年前

统计学④——置信区间怎么算

上一篇写了如何通过样本的均值和方差,也叫点估计量,去估计总体的均值和方差,给出的是一个精确值。但是仅仅依靠一个样本得出的假设就一定可靠吗?虽然我们已经尽量抽取无偏样本了,得到的结果已经是最佳的点估计量,但是也只能说很接近总体的真值,但是有多接近也不知道。因此,在给总体估计参数时,不是给一个精确值,而是一个范围,而且能保证总体参数有多大把握在这个范围,会比给一个精确值能令人信服的多,风险性也较小,...
原创
3532阅读
0评论
4点赞
发布博客于 2 年前

统计学③——总体与样本的差异在哪里

一、总体与样本定义总体:所研究的所有事件的集合样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论二、抽样方法我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。无偏样本的抽样方法:① 简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种② 分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样...
原创
1210阅读
0评论
0点赞
发布博客于 2 年前

统计学②——概率分布(几何,二项,泊松,正态分布)

概率分布描述了一个给定变量的所有可能取值结果的概率,像上篇博文总结到,根据概率分布计算期望和方差如下:在X取值较小时这样还能算得出来,但是X取值非常多时,甚至取之不尽时(比如可以取1-正无穷),那这样该如何计算期望和方差呢?当然这难不倒我们历史上伟大的数学家们,他们经过大量实验发现了一些很特殊的概率分布,比如几何,二项,泊松,正太分布等,而这些期望和方差都有特定的方法,可是给我们节约了不少时...
原创
501阅读
0评论
1点赞
发布博客于 2 年前

统计学①——概率论基础及业务实战

一、统计学是什么?统计学分为两类,一类是描述性统计学,通过对数据的集中趋势和变异趋势的刻画来描述数据的分布情况,集中趋势有平均值,中位数和众数三个指标,变异趋势则有全距,四分位距,百分位距,方差,标准差等指标来衡量另一类是推断统计学,通过对样本的统计来推断总体的参数和置信区间,以及对多变量进行相关性分析和回归预测。用一句话就是:总结历史,预测未来二、概率论基础概率论是统计学中非常重要且基...
原创
439阅读
0评论
2点赞
发布博客于 2 年前

个性推荐③—基于物品的协同过滤算法及优化方案

上一篇总结了基于用户的协同过滤算法原理及优化方案,本篇则整理了另一种基于领域的算法:基于物品的协同过滤,以及这两种方法的异同点及适用范围一、算法原理① 计算物品之间的相似度② 基于物品的相似度和用户历史行为给用户生成推荐列表二、物品相似度计算通常认为物品相似,是因为物品在某些特征上相似,比如《琅琊榜》与《伪装者》在演员阵容上非常相似,因此会认为这两部剧很相似,这种认定相似的标准就叫基于内...
原创
702阅读
2评论
2点赞
发布博客于 2 年前

个性推荐②—基于用户协同过滤算法原及优化方案

个性推荐系统常用的有两种:基于领域的推荐算法和基于内容的过滤算法,前者又分为基于用户的协同推荐算法(userCF)和基于物品的协同过滤(itemCF),本篇重点介绍基于用户的协同推荐算法的原理、适用范围及优化方案一、算法步骤① 找到和目标用户相似的用户集合② 找到这个集合中用户喜欢的,且目标用户没有听过或产生过行为的物品二、用户相似度计算基于用户历史行为得到用户相似度以电商为例,如果两...
原创
900阅读
0评论
2点赞
发布博客于 2 年前

个性推荐①——系统总结个性化推荐系统

本文是整理于个性推荐经典之作《推荐系统实战》,将会以十个大家最想问的问题,揭开个性化推荐系统的神秘面纱(文末附下电子书的下载链接)一、你觉得个性推荐系统是什么?分类查询,搜索引擎查询,再到个性推荐,都是解决信息过载的问题前两者是在用户有明确需求时,可以非常方便地找到自己感兴趣的信息,而个性推荐是要解决当用户没有明确需求,或者无法用文字进行描述时,根据用户的历史行为,推荐给他感兴趣的信息个性...
原创
1402阅读
0评论
2点赞
发布博客于 10 月前

关联算法②——Apriori算法原理及python实现

一、关联规则关联规则,顾名思义,就是寻找事物之间的关联关系。比如《啤酒与尿布》中,在某个特定时间段,会出现啤酒与尿布同时出现在购物篮中的现象,且出现频率非常高。调研发现这是一群爱喝啤酒的奶爸群体。如果可以通过类似的方式挖掘更多特定的群体需求,就可以进行交叉销售或捆绑销售来提升销售额和利润。Apriori算法就是经典的寻找物品的关联算法。二、Apriori算法原理1、先了解几个概念项集 :包...
原创
1095阅读
0评论
3点赞
发布博客于 2 年前

关联算法①——《啤酒与尿布》购物篮分析

关联算法是通过支出度,置信度,提高度三个指标,寻找有相关性的商品或其它物品组合,最早是用在了沃尔玛超市的购物篮分析中。本篇文章梳理了购物篮分析的经典之作《啤机与尿布》的精华内容,希望能够对大家有所启发。一、销售额影响因素1、商品关联度商品关联度分析不只是特定商品之间,其实是特定品类之间,客户有喜新厌旧的心理,不应该将关联商品定死在某个商品(马尔科夫转移矩阵:描述不同品种商品的变化规律) ;通...
原创
3019阅读
0评论
7点赞
发布博客于 10 月前

集成学习③——Sklearn-Adaboost库参数及实战

一、Adaboost库参数介绍Adaboost库分为AdaBoostClassifier(分类)和AdaBoostRegressor(回归),两者的参数相近,均包括Adaboost框架参数和使用的弱学习器参数,详细如下:1、框架参数① base_estimator: 弱学习器,AdaBoostClassifier和AdaBoostRegressor都有。理论上可以选择任何一个分类或者回归...
原创
1342阅读
1评论
1点赞
发布博客于 2 年前

集成学习②——Adaboost算法原理及python实现

一、AdaBoost算法原理上一偏博客总结过,集成学习基于弱学习器之间是否依赖分为Boosting和Bagging两类, Adaboost就是Boosting中的典型代表。AdaBoost是英文"Adaptive Boosting"(自适应增强)的缩写,它的自适应在于:基于每一个分类器的误差率,来更新所有样本的权重,前一个分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再次...
原创
729阅读
0评论
2点赞
发布博客于 2 年前

集成学习①——集成学习原理、分类和结合方法

一、集成学习的原理集成学习就是"博采众长",将一组弱学习器通过一定方法给合在一起得到强学习器,这个强学习器的泛化能力相对任何一个弱学习器都要好,甚至还有起到三个臭皮匠,赛过诸葛亮的效果这里有2个问题,有哪些弱学习器可以用?怎么结合?弱学习器:以分类来说,分类效果要优于随机分类,也就是准确率高于50%的学习器,且计算速度快,通常以决策树和神经网络为主,一组弱学习器可以是一样的,也可以不一样,目...
原创
1916阅读
0评论
7点赞
发布博客于 2 年前

最小二乘法&梯度下降法区别及python实现

一、最小二乘法先来解释几个概念拟合函数/估值函数:在回归问题中,当给定一组样本时,找到一个最佳的函数来匹配所有的样本,这个函数就是拟合函数/估值函数损失函数:判断函数拟合的好不好的函数,损失函数越小,说明拟合值与真实值越接近,误差越小,就越能用拟合函数来进行预测,损失函数的标准有以下几种:a) 残差和: 指拟合值与真实值的差的和,有正有负会存在抵消的情况,不能反应真实误差b) 残差绝对值...
原创
1362阅读
0评论
2点赞
发布博客于 2 年前

神经网络③——sklearn参数介绍及应用

一、MLPClassifier&MLPRegressor参数和方法 MLPClassifier(solver=’sgd’, activation=’relu’,alpha=1e-4,hidden_layer_sizes=(50,50), random_state=1,max_iter=10,learning_rate_init=.1)参数说明(分类和回归参数一致):hidden_...
原创
7197阅读
1评论
7点赞
发布博客于 2 年前

神经网络②——python实现神经网络

上一篇博客介绍了神经网络其实就是两步,第一步是前向传输,根据输入的特征值与权重矩阵以及激活函数,不断往前计算,得到输出层的值,第二步就是后向传播,根据残差的加权求和,不断往后,直到输入层,然后更新权重,不断进行这两步,直接输出结果的误差在所要求范围内即可。本篇博文通过python代码实现神经网络,采用sklearn自带的手写数字集,看分类情况如何一、导入数据集并标准化数据集的加载非常简单,直...
原创
1021阅读
0评论
0点赞
发布博客于 2 年前

神经网络①——神经网络原理介绍(BP算法)

一、神经网络是啥?大脑神经网络就是通过轴突和树突连接在一起的多个神经元集合,单个神经元通过树突从成千上万的神经元接受信息,再通过轴突将信息传递给成千上万个神经元。人工神经网络就是一种旨在模仿人脑结构及其功能的信息处理系统,有输入层,隐藏层和输出层,输入层就是输入样本值,隐藏层和输出层通过激活函数计算,层与层之间通过权值矩阵相连。隐藏层是看不见的,可以有多个,像个黑盒子一样的东西,输出层就是我们...
原创
2491阅读
0评论
2点赞
发布博客于 2 年前

支持向量机SVM③——通过4种核函数进行波斯顿房价回归预测

文章目录:导入库和数据数据预处理模型训练和评估一、导入库和数据本文采用dataset自带的Boston房价数据集,进行回归预测# 导入库from sklearn.datasets import load_bostonfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import...
原创
1857阅读
0评论
0点赞
发布博客于 2 年前

支持向量机SVM②——文本分类实战(SVM&KNN&贝叶斯&决策树)

SVM基于其可以很好的处理高维数据集的特点,常应用在文本分类,图像识别等领域。本文先对Sklearn自带的fetch_20newsgroups数据集用SVM进行分类,然后再与KNN,贝叶斯,决策树三种分类算法进行对比。代码如下:① 导入数据from sklearn.datasets import fetch_20newsgroupscategories = ['alt.atheism',...
原创
2211阅读
0评论
3点赞
发布博客于 2 年前

支持向量机SVM①——Sklearn核函数参数介绍(线性&高斯&多项式&sigmond)

本来想先写一篇支持向量机的原理篇,结果在白天钻研,晚上做梦都在思考的2周后,还是没有搞太明白,实在是见识到了人类智慧的博大精深和自我的渺小。因此我还是先从应用下手,先用到慢慢体会好了。本篇主要介绍sklearn库的svm的分类和回归参数,其中重点介绍四大核函数的参数。之前在未调参的情况下将svm和决策树、贝叶斯进行了分类对比,发现训练器分数巨低,且训练过程时间是真的长,长到怀疑人生。所以想要SV...
原创
7251阅读
3评论
11点赞
发布博客于 2 年前

贝叶斯⑥——银行借贷模型(贝叶斯与决策树对比)

之前在决策树系列中写了一篇博客,是利用决策树建立了一个银行借贷模型,鉴于都是分类,今天就来对比下贝叶斯和决策树的分类效果。一、数据集下载:https://pan.baidu.com/s/1AtFKXSMYdD_G3M5UhTC1-w 提取码: oygj二、字段介绍① name_id: 姓名② profession: 职业,1-企业工作者,2-个体经营户,3-自由工作者,4-事业单位,5...
原创
1533阅读
4评论
4点赞
发布博客于 2 年前

贝叶斯⑤——搜狗新闻分类实战(jieba + TF-IDF + 贝叶斯)

分类过程:1、导入文件并用jieba分2、随机抽取训练和测试样本3、建立tf-idf词频权重矩阵4、朴素贝叶斯分类(采用多项式模型)数据集下载选取了搜狗新闻下财经,体育、教育等九大类别共90篇文章,本博文将使用朴素贝叶斯进行分类实战数据集下载:https://pan.baidu.com/s/1RvhuRVKbIYowoItlyfqMTA,密码:h5rf一、读取文件并用jieba分词...
原创
1656阅读
7评论
2点赞
发布博客于 2 年前

贝叶斯④——Sklean新闻分类(CountVectorizer&TfidfTransformer&TfidfVectorizer)

一、数据集介绍20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类。sklearn提供了该数据的接口:sklearn.datasets.fetch_20newsgroups二、数据集调用from sklearn.datasets import fetch_20n...
原创
1576阅读
3评论
4点赞
发布博客于 2 年前
贝叶斯②——贝叶斯3种分类模型及Sklearn使用(高斯&多项式&伯努利)
发布Blink于 2 年前

贝叶斯③——Python实现贝叶斯文本分类(伯努利&多项式模型对比)

虽然sklearn能直接调用贝叶斯分类,但是若能用Python代码敲出来,那也是非常有成就感的一件事,而且能进一步加深对算法过程的理解~一、算法流程及函数解释① loadData():导入分类样本,如果样本是文档,先用jieba进行分词② vecabulary():用集合生成词典(set|set会生成并集且自动删除重复元素)③ Word2Vetorm()&Word2Vetor_m(...
原创
2067阅读
0评论
5点赞
发布博客于 2 年前

贝叶斯②——贝叶斯3种分类模型及Sklearn使用(高斯&多项式&伯努利)

一、高斯模型大家在学习高等数学时,应该学过高斯分布,也就是正态分布,是一种连续型变量的概率分布。简单来说,高斯分布就是当频率直方图的区间变得特别小时的拟合曲线,像座小山峰,其中两端的特别小,越往中间越高。现实生活中有很多现象均服从高斯分布,比如年龄,收入,身高,体重等,大部分都处于中等水平,特别少和特别多的比例都会比较低。高斯概率分布是由均值μ和标准差σ唯一确定的,如下图所示在贝叶斯分类...
原创
3292阅读
2评论
8点赞
发布博客于 2 年前

贝叶斯①——贝叶斯原理篇(联合概率&条件概率&贝叶斯定理&拉普拉斯平滑)

贝叶斯分类是一类以贝叶斯定理为基础的分类算法的总称,其中基于特征之间相互独立的朴素贝叶斯是最简单,但效果却非常好的一种分类算法。本文整理了贝叶斯算法的基本原理,希望能够对大家有所帮助~~一、贝叶斯定理设想一个问题:班里有30个男生,20个女生,有3个男生留长头发,有15个女生留长头发,现在有一个人留长头发,是男生的可能性有大?解答过程:P(长发)=(3+15)/(30+20)=18/50=...
原创
2650阅读
0评论
4点赞
发布博客于 2 年前

决策树应用实例④——淘宝&京东白条金额(回归&均方差&随机森林)

之前在京东购物,发现了一个新的支付方式,叫打白条,买东西可以先付钱,后面再分期付,这个跟买房按揭还不太一样,前者还必须缴纳30%以上的首付,而白条可以完全不用交钱。淘宝上也有类似的功能,叫花呗分期。当然也不是所有商品都能白条,白条金额也是有一个上限的。电商平台是根据什么决定用户的白条金额呢?太少了,无法达到刺激用户消费的作用,还显得平台小家子气;太多了,又无法承担用户薅羊毛一次就跑的风险。我猜...
原创
1548阅读
0评论
2点赞
发布博客于 2 年前

决策树应用实例③——银行借贷模型

银行借贷是基于分析历史按时还款、逾期或不还的用户群体的各自特征建立模型,未来借款用户只要符合符合借款要求,就给予借贷,如果不符合,则拒绝。本文将根据自建的一份包含借款人信息及银行是否借贷的数据集,创建一棵决策树,并进行预测,代码过程如下:一、导入数据# 导入库import pandas as pdimport numpy as npfrom sklearn.tree import De...
原创
5581阅读
9评论
10点赞
发布博客于 2 年前

决策树应用实例①——泰坦尼克号分类

泰坦尼克号是二分类问题,今天尝试用决策树进行分类步骤如下:1、导入数据集2、数据清洗:① 删除对分类无帮助的特征② 将某些字符串特征数值化③ 填补缺失值或删除3、对数据集用train_test_split切割成训练集和验证集4、用sklearn默认参数生成一棵普通的决策树,看训练集和验证集的评分5、通过GridSearchCV进行调参,得到最优的参数并生成最终的树6、用混淆矩阵...
原创
4476阅读
2评论
3点赞
发布博客于 2 年前

决策树⑤——Python代码实现决策树

依据现代女生的审美标准,用python代码编写一颗简单的决策树
原创
1591阅读
0评论
4点赞
发布博客于 2 年前

决策树④——决策树Sklearn调参(GridSearchCV调参及过程做图)

上一篇介绍了决策树Sklean库的参数,今天用GridSearchCV来进行调参,寻找到最优的参数一、GridSearchCV介绍① estimator: 训练器,可以是分类或是回归,这里就用决策树分类和决策树回归② param_grid: 调整的参数,可以有两种方式:a. 字典,键为参数名,值为可选的参数区间,调优过程会依次迭代所有的参数名下的值,得到每一个参数名下最优的值param...
原创
6135阅读
0评论
8点赞
发布博客于 2 年前

决策树③——决策树参数介绍(分类和回归)

前面总结了信息熵,信息增益和基尼信息的定义,以及决策树三大算法的原理及迭代过程,今天介绍下Python中机器学习Sklearn库中决策树的使用参数决策树既可以做分类,也可以做回归,两者参数大体相近,下面会先介绍分类,再对回归不一样的参数做单独说明一、分类参数1、 criterion: 特征选取方法,可以是gini(基尼系数),entropy(信息增益),通常选择gini,即CART算法,如...
原创
3265阅读
0评论
2点赞
发布博客于 2 年前

决策树②——决策树算法原理(ID3,C4.5,CART)

决策树是一种运用统计概率分析的机器学习方法。它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果,主要有ID3,C4.5和CART三种基础决策树一、ID3算法1、算法原理ID3是采用信息增益作为特征选择的标准,信息增益上一篇博客有介绍,公式如下:信息增益越大,说明此按此特征分类后越能消除信息的不...
原创
1713阅读
0评论
1点赞
发布博客于 2 年前

决策树①——信息熵&信息增益&基尼系数

本文主要内容:① 大白话解释何为 信息,信息熵,信息增益,信息增益率,基尼系数② 介绍决策树3种算法(ID3,C4.5,CART)的原理及区别一、基础概念① 信息能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大...
原创
6069阅读
0评论
8点赞
发布博客于 2 年前

Kmeans聚类实例④——电商用户质量聚类分析(RFM)

聚类通常分为以下步骤:① 业务提出需求② 根据业务需求,找到核心的指标。有现成的模型的话(如RFM),可以直接按模型的指标,如果没有,先罗列出比较重要的指标③ 从数据库用SQL取出数据④ 对数据进行清洗,标准化/归一化/正则化⑤ 聚类,如果是现成的模型,则直接聚类即可,如果是拟定的指标,则对各指标进行相关性验证,剔除掉相关性较高的指标,再聚类⑥ 根据聚类结果,结合业务场景提供建议本篇...
原创
11139阅读
7评论
15点赞
发布博客于 2 年前

Kmeans聚类③——Kmeans聚类原理&轮廓系数&Sklearn实现

Kmeans是我接触的第一个机器学习算法,原理简单,却很实用,只要一想到聚类,基本上没有Kmeans解决不了的问题(此处略有夸张~~),本篇整理了Kmeans聚类原理,评判标准以及Sklearn实现过程一、Kmeans聚类原理用大白话来说,Kmeans就是把待分类的样本向量化,投射到坐标轴上,先定分几个类(假设3类),随机找3个点做为初始聚类中心,分别计算每个点到3个中心的距离,哪个最近,这个...
原创
7378阅读
0评论
6点赞
发布博客于 2 年前

Kmeans聚类②——Sklearn数据生成器(make_blobs,make_classification,make_circles,make_moons)

在学习机器学习中,经常会遇到找不到合适的数据集的情况,后来才发现我们可以自己批量生成各种各样的数据,简直不要太惊喜!这里整理了一些常用的生成数据的方法一、Make_blobs(聚类生成器)n_samples:待生成的样本的总数n_features:每个样本的特征数,默认为2centers: 要生成的样本中心(类别)数,默认为3cluster_std: 每个类别的方差,默认为1shuff...
原创
2071阅读
0评论
6点赞
发布博客于 2 年前

Kmeans聚类①——数据标准化&归一化&正则化

在进行机器学习之前,经常需要对训练数据进行标准化/归一化/正则化,为什么呢?**1)去除量纲的影响,将有量纲的数值变成无量纲的纯数值;2)是去除各特征之间数值差异过大的问题,比如一个向量(uv:10000, rate:0.03,money: 20),如果要与其它向量一起计算欧氏距离或者余弦相似度时,会向uv倾斜非常严重,导致其余2个特征对模型的贡献度非常低3)提升训练的速度,防止过拟合一、...
原创
12486阅读
5评论
9点赞
发布博客于 2 年前

Matplotlib可视化②——3D绘制散点图&曲面图&折线图&等高线图

一、3D折线图import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport randomimport matplotlib as mplfrom matplotlib import cmfrom mpl_toolkits.mplot3d import axe...
原创
2092阅读
2评论
1点赞
发布博客于 2 年前

Seaborn做图系列①——直方图&箱型图&散点图&变量关系图&回归图&热力图&条形图

Seaborn是在Matplotlib的基础了进行更高级别的API封装,可以轻轻松松绘制出各式精美且方便数据分析的图表,今天主要总结了以下常用的几种:直方图——distplot , kdeplot,看单变量的分布,是否正态,是否左右偏,有几个高峰等箱型图——boxplot,看单变量的分布,常用来找异常值散点图——striplot,swarmplot,看单变量的分布,与Excel中两变量相关性...
原创
2741阅读
0评论
6点赞
发布博客于 2 年前

Matplotlib可视化①——二维图表绘制(折线图&直方图&散点图&条形图&箱形图&饼图&面积图)

目录:折线图直方图散点图条形图箱型图饼图面积图展示:一、折线图import matplotlib.pyplot as pltimport numpy as npimport pandas as pdx = np.arange(1,10,1)y = x*x # 创建数据fig= plt.figure(figsize=(20,40)) # 创建图片ax1 = fi...
原创
2681阅读
0评论
4点赞
发布博客于 2 年前

Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)

数据是某企业销售的6种商品的送货及用户反馈数据,主要想要了解:1、各月份、各区域、各货品的送货情况,哪一块是是急需要改进的2、各货品在不同区域的反馈数据,看下每个商品的最佳市场和最差市场3、各货品在不同区域的销售情况,看下哪块市场应该加强,哪块市场需要减少投资4、分析下商品的送达情况与反馈情况是否有相关性?详细分析如下(想要数据集的可以在评论区戳我喔~)一、数据清洗① 重复值、缺失值...
原创
1189阅读
8评论
5点赞
发布博客于 2 年前

Pandas数据分析⑦——数据分析实例2(泰坦尼克号生存率分析)

Kaggle竞赛的“泰坦尼克号预测生还”是进行Pandas数据分析非常好的案例,虽然CSDN有很多大神已经做了非常高深的机器学习的建模研究,但是我还是想从一个比较基础的提升Pandas使用角度来做一篇总结~今天主要想了解的有:1、不同性别、舱位和年龄的分布情况2、不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征有哪些一、数据清洗①筛选列import pandas as p...
原创
2902阅读
3评论
10点赞
发布博客于 2 年前

Pandas数据分析⑤——数据分组与函数使用(Groupby/Agg/Apply/mean/sum/count)

之前有篇SQL聚合函数的文章(https://blog.csdn.net/cindy407/article/details/90341410),讲述了SQL中分组函数groupby及相应的聚合函数使用。在Pandas数据分析中,Groupby也是使用频率非常高的方法,两者其实非常相似,看完本篇你就知道怎么用啦!一、Groupby基本使用① groupby可以通过传入需要分组的参数实现对数据的...
原创
7616阅读
1评论
2点赞
发布博客于 2 年前
Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)
发布Blink于 2 年前

Pandas数据分析④——数据规整2(数据拼接/透视)

数据规整是在数据清洗完毕后,将其调整成适合分析的结构,为后续的深入分析作准备,主要分为以下几类:索引和列名调整: 设定新索引,筛选想要的列,更改列名数据排序:根据索引或列进行排序数据格式调整:更改数据类型,更改数据内容(去除空格标点符号/截取/替换/统一数据单位等),增加用于分析的辅助列数据拼接:行堆叠和列拼接数据透视:行或列维度转换上一篇介绍前3种,本篇介绍后2种一、数据拼接1、...
原创
923阅读
0评论
4点赞
发布博客于 2 年前

Pandas数据分析③——数据规整1(索引和列名调整/数据内容调整/排序)

数据规整是在数据清洗完毕后,将其调整成适合分析的结构,为后续的深入分析作准备,主要分为以下几类:索引和列名调整: 设定新索引,筛选想要的列,更改列名数据排序:根据索引或列进行排序数据格式调整:更改数据类型,更改数据内容(去除空格标点符号/截取/替换/统一数据单位等),增加用于分析的辅助列数据拼接:行堆叠和列拼接数据透视:行或列维度转换本篇先介绍前3种,下一篇介绍后2种一、索引和列名调...
原创
1347阅读
0评论
2点赞
发布博客于 2 年前

Pandas数据分析②——数据清洗(重复值/缺失值/异常值)

数据清洗主要分为三步:重复值处理——删除(有几个相同就删除还是全部得相同)缺失值处理——删除,填充(均值,众数,中位数,前后相邻值),插值(拉格朗日插值,牛顿插值)异常值处理——describe进行描述性分析+散点图+箱型图定位异常值,处理方法:删除,视为缺失值一、重复值处理① 先用duplicated()方法进行逻辑判断,确定是否有重复值data = pd.read_csv("dat...
原创
11360阅读
1评论
20点赞
发布博客于 2 年前

Pandas数据分析①——数据读取(CSV/TXT/JSON)

一、CSV读取和导出①基本参数②注意事项:header=0/Nonenames=[]/listencoding=‘gbk’/‘utf-8’index_col=[]存储路径最好全英文,或直接放入pandas默认的存储路径名字也纯英文二、TXT读取和导出①基本参数②注意事项:sep = ‘\s+’encoding=‘utf-8’三、JSON读取和导出①python自带方式...
原创
9601阅读
2评论
7点赞
发布博客于 2 年前

Excel高级图表制作④——控件+Offset组合,让图表真正动起来!

之前一篇讲过动态图表主要有三种形式:数据透视表+切片器,vlookup+match+数据验证,以及控件+offset,之前是觉得数据透视表是最简单灵活的,但是近几天深入研究了几个控件的案例,发现控件也是有其不可比拟的优势的,且听我娓娓道来~一、组合框+OFFSET——单一筛选利器① 控件制作:点击开发工具-插入-组合框,在空白单元格画出一个框,然后右键设置格式,数据源选择数据中的5月-8月,然...
原创
14462阅读
12评论
10点赞
发布博客于 2 年前

Excel高级图表制作③——漏斗图/转化路径图

我们平时对用户分析路径和转化率分析时,经常会用到漏斗图。我最开始学做漏斗图是在Tableau,发现怎么做都不是很好看(第1张图),后面用Excel试了下,发现竟然并不比Tableau差(第2张图),刷新了我对Excel图表的认知!!!一、准备数据插入辅助列,是为了保证每一行都是居中对齐二、漏斗图制作选中A-E3列,插入堆积条形图,点击图表的纵坐标轴,勾选逆序类别,然后右击图表,选择数...
原创
8190阅读
1评论
5点赞
发布博客于 2 年前

Excel常用技巧—数字和文本转换,三种方法任你选!!

Excel容易引起误会的莫过于设置数字格式了,这个改变的只是显示方式,而并没有真正改变存储的格式,所以一旦要运用到格式的函数(如vlookup,match,offset等),就会报错,然后不知云里雾里,本篇总结了最常见的数字和文本的转换技巧,简单又好记~格式判断:数据默认显示在右边,文本默认显示左边,且会有一个绿色的倒三角, 这个从数据库导出文本型数据时最容易发现,可以用isnumber和ist...
原创
1144阅读
0评论
1点赞
发布博客于 2 年前
Excel高级图表制作①——电池图/KPI完成情况对比图/重合柱形图
发布Blink于 2 年前
Excel数据分析常用函数④——日期函数(now,today,datedif,weekday,weeknum,text)
发布Blink于 2 年前

Hive Sql 性能优化——看这一篇就够啦!

今天听组内SQL小王子分享了一篇Hive Sql性能优化的总结报告,甚觉精彩,赶紧来分享给大家!!一、尽量使用索引,避免全表查询① 在where 和 order by 常用的字段上创建索引,提升效率的核心!② where子句中尽量避免进行nul值判断,少使用!=,<>等操作符,等号左边避免函数、算数和其它表达式运算,这此操作都会导致索引无效,启动全表查询③ where 子句中将...
原创
5606阅读
0评论
4点赞
发布博客于 2 年前

Excel高级图表制作②——帕累托图

我们经常说的二八法则, 其实就是帕累托法则,80%的问题是由20%的原因造成的,延生开去有:20%的商品实现了80%的利润,剩余80%的商品只能赚到20%的利润(长尾理论)20%的努力可以获得80%的成绩,剩余20%的成绩需要花费80%的努力20%的用户贡献了80%的收入(用户分类准则)诸如此类,有一种图表就形象地表达了这种关系——帕累托图,如下有没有觉得非常地漂亮呢?下面就来讲下操作...
原创
6961阅读
1评论
2点赞
发布博客于 2 年前

Excel高级图表制作①——电池图/KPI完成情况对比图/重合柱形图

当对多项进行前后对比或者计划与实际对比时,常用的是簇状柱形图,如下所示:但是有没有发现,这样看并不是很直观,也无法知道谁完成得更好,但是下面这个图是不是看起来要简单明了得多呢?其实这个图特别简单,跟着我一起操作吧!一、添加辅助列(先加上,后面就知道有啥用啦)二、选中前3列数据,插入簇状柱形图,双击图表,打开右侧格式调整框,在系列重叠输入100%,意思是两种柱形图完全重叠,得到下图在...
原创
5791阅读
2评论
4点赞
发布博客于 2 年前

Excel数据分析高级技巧②——数据透视表(组合/切片器/计算字段/数据透视图/条件格式)

作为一枚数据分析师,数据透视表应该算得上使用频率最高的数据处理和分析的方法了,没有数据透射表,真的难以想像会带来多少繁冗的工作量。 今天就来整理下数据透视表的重用功能(建表/排序/筛选/切片器/条件格式/计算字段/组合/建图),相信看完这篇你就能掌握数据透视表的精髓啦!一、建立数据透视表1) 基础建表选中表格,点击插入-数据透视表,在现有工作表选一个单元格(也可以默认新建工作表),点...
原创
18609阅读
3评论
11点赞
发布博客于 2 年前

Excel数据分析常用函数④——日期函数(now,today,datedif,weekday,weeknum,text)

一、获取当前时间①当前日期和时间TODAY/NOW②当前星期几TEXT(TODAY(),“aaaa”)TEXT(TODAY(),“dddd”)③当前周次WEEKNUM(日期,类别)③当前季度INT((MONTH(NOW())+2)/3),LEN(2^(MONTH(TODAY()))二、日期拆分与合并①拆分得年,月,日,小时,分钟和秒YEAR/MONTH/DAY/HOUR/M...
原创
1771阅读
1评论
2点赞
发布博客于 2 年前

Excel数据分析常用函数③——字符串查找/替换/拼接/截取函数(replace/find/left/right/mid/concat)

一、字符串查找Ctrl+F快速调出查找框,默认是字符匹配,而不是单元格匹配,比如下图,我搜索"鞋",会查询到3组结果但如果仅想查找"鞋"而不想查找其它的,可以在选项中勾选单元格匹配,这个在精准替换中起到很大的作用二、字符串替换①Ctrl+H快速调起替换框,输入想替换和被替换的字符,跟查找一样,可以通过单元格匹配实现精准匹配,如下②Replace函数1)replace(被替换的字...
原创
5625阅读
0评论
3点赞
发布博客于 2 年前

Excel数据分析常用函数②——统计函数(sumproduct,sumif,sumifs,count,countif,countifs,counta…)

平时工作中经常会用到各种求和,sum,sumif,sumifs,sumproduct,count,countif,countifs,counta,maxifs,minifs,averageifs是使用频率非常高的求和函数,虽然数据透视表汇总求和相当方便,但是必须更换字段,不能同时展示,因此基础的求和函数还是要掌握的喔!一、原始数据如下:二、SUM系列(sum/sumif/sumifs/sum...
原创
2463阅读
1评论
6点赞
发布博客于 2 年前

Excel数据分析高级技巧①——动态图表制作(offset,vlookup,控件…)

tableau具有非常强大的自定义筛选功能,使得动态图表相当地酷炫。那Excel可以做出一样酷炫的动态图表吗?答案必须是个大大的Yes!本文总结三种常用的动态图表制作方法:数据透视表+切片器,vlookup+match+数据验证,Offset一、数据透视表+切片器1、查看原始文件——一份不同城市的近几月的销量记录表2、建立数据透视表——全选数据-插入-数据透视表-选择现有工作表-将商品和...
原创
6502阅读
2评论
6点赞
发布博客于 2 年前

Excel数据分析常用函数①——查询函数(vlookup,hlookup,lookup,match,index…)

当我们通过sql从数据库获得基础的数据后,要想进行分析,得先将数据进行处理,用得最多的函数当属查询类函数了,如果不会,你会发现存步难行…下面从易到难整理了几种特定场景的查询函数一、 基本函数①MATCH(lookup_value,lookup_array,match-type)参数:第1个参数为查询的值,第2个为查询的区域,第3个是查询方式,分为0(精确匹配),1(升序匹配),-1(降序匹配...
原创
3495阅读
0评论
4点赞
发布博客于 2 年前

SQL技巧高级系列②——聚合函数和CASE WHEN的使用

之前博客有提到过group by 具有分组统计功能,但是如果分组的字段是连续型变量,想要转化成分类变量再汇总,改如何处理呢?——Case when 就是最佳的解决办法一、什么是CASE WHEN?case when可以说是一种特定的分类方式,比Group by更加灵活,更能符合业务错综复杂的分类需求二、CASE WHEN的用法有简单case表达式和搜索case表达式两种,比如根据用户的充值...
原创
3062阅读
1评论
3点赞
发布博客于 2 年前

SQL技巧高级系列①——窗口分析函数的使用

平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~hive、oracle提供开窗函数,mysql不提供group by 与over(partition by …)主要区别为,带上group by的hive sql语句只能显示与分组聚合相关的字段,而带上over(partition ...
原创
1206阅读
1评论
2点赞
发布博客于 2 年前

SQL技巧中级系列②——日期函数的使用

1、返回当前的时间2.1 返回当前的年月日select current_date()select from unixtime(unix_timestamp(),‘yyyy-MM-dd’)2.2 返回当前的时间(到秒)select current_timestampselect from_unixtime(unix_timestamp(),‘yyyy-MM-dd hh:mm:ss’)2...
原创
403阅读
0评论
1点赞
发布博客于 2 年前

SQL技巧中级系列①——字符串函数的使用

1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度hive> select length('abcedfg') from lxw_dual, 结果为7hive> select userid where length(deviceid) <>0, 筛选出统计到设备ID的用户ID2. 字符串反转函数...
原创
391阅读
0评论
1点赞
发布博客于 2 年前

SQL技巧初级系列③——数据拼接(集合运算union和列连接join)

数据拼接有两种方法,以行为单位进行的集合运算,和以列为单位进行的连接。这篇博文就想介绍下这两种方法。一、集合运算高等数学中有介绍过集合的概念,分为并集,交集,差集。并集就是多个集合汇总,交集是多个集合的公共部分,差集是一个集合减去另一个集合。对应于Sql中就是union,intersect和except。①Union——并集Select dt,userid from my_user_lo...
原创
951阅读
0评论
1点赞
发布博客于 2 年前

SQL技巧初级系列②—聚合和排序(group by,having,order by)

每天数的库都会新增大量数据,作为数的分析师,如何从这些海量数的中看出点玩意来呢?分组汇总就是其中一个最最基础的方法,这里总结下sql中的明星用法——聚合一、聚合函数① Count:用作计数,可用distinct去重,常见用法:count()和 count(1)——包含null,两者不同在于查询速度,假如表沒有主键(Primary key), 那么count(1)比count()快count...
原创
1965阅读
0评论
3点赞
发布博客于 2 年前

SQL①—建表/更新表/删除表

作为一枚数据分析师,查询数据是最主要的,但在某些情况下也会用到建表/更新表/删表,比如:当表数据太多,直接从原表查询效率会非常低下——通过限定条件创建小表会大大提升效率当表数据太多,哪怕限定条件创建表仍然太大,怎么办?——通过先创建部分表再依次插入可解决, 虽然步骤相对麻烦了些:-D当创建的表有误,或者需要重新建表但不想更改表名,怎么办?——通过删除表再创建表即可解决一、建表2种方法...
原创
827阅读
0评论
2点赞
发布博客于 2 年前