- 博客(30)
- 资源 (1)
- 收藏
- 关注
原创 啤酒和尿不湿?购物篮分析、商品关联分析和关联规则算法都给你搞清楚(上—理论篇)
关联规则算法源于对购物小票(也叫购物篮)数据记录的挖掘,因此现在往往叫做购物篮分析,又因为研究的是商品之间关联关系,又叫做商品关联分析。
2021-11-30 18:48:56 2607
原创 【数据分析】用六千字来解释文科生怎么理解机器学习数据挖掘
从人类学习说起回顾人类从亿万年前诞生至今,文明从无到有、从有到高度发达,当然如今的文明是否高度发达还存疑,但是不可否认的是与原始人类只会使用简单工具相比,我们的科技文明已经大大扩展了人类的想象力。
2022-02-22 21:05:10 727
原创 如何用Python操作Excel自动化办公?一个案例教会你openpyxl——图表设计和透视表
毫无疑问Excel是最便捷高效的可视化工具,它可以满足基本的日常工作中的图表需求。在openpyxl中也可以设置表格样式和画图表,基本上Excel里自带的表格样式和图表类型都覆盖了,在前三篇Excel读写、公式计算、格式设置内容的基础上,本篇来讲解一下如何设置表格样式和插入图表。一、表格样式 也许大家使用Excel表格是
2022-02-22 20:45:45 4168
原创 如何用Python操作Excel自动化办公?一个案例教会你openpyxl——样式和条件格式
虽然现在各种各样强大的工具很多,但是人人都离不开Excel,原因就在于简单易用、快捷DIY。它不仅是CRUD(增删改查)的工具,也是可视化设计便利的工具。日常工作中,除了基本的数据处理,还需要对Excel表格、单元格、图表进行格式整理、样式美化,便于直观明确的传达信息。本篇接着上两篇讲解如何让通过openpyxl进行单元格合并、边框、字体、颜色、行高列宽、对齐等功能。
2022-02-22 20:44:11 2828
原创 如何用Python操作Excel自动化办公?一个案例教会你openpyxl——公式计算和数据处理
术业有专攻,每一种工具每一种岗位都会有资深玩家,别说因为人人都会Excel就瞧不起Excel玩的溜的朋友。对于运营场景来说,能够和具体业务结合紧密,轻松实现目的,这就是很强大的玩家,但是如果精于提高技能水准来说,可能需要扩大技术的应用场景,强调通用性。openpyxl等Python辅助办公工具就是在Excel基础上提升效率而产生
2022-02-07 21:11:56 4360 2
原创 如何用Python操作Excel自动化办公?一个案例教会你openpyxl——读取数据
数据分析工作最难搞的是处理数据的过程,不然不会有专门的ETL(数据抽取、转换、加载)工程师了。如果是企业级数据处理可能数据库直接搞定。不过对于日常办公人士来说就会有点麻烦,常常需要处理各种CSV/Excel表格。如果数据量比较小、一次性事务处理的话,手动处理Excel表格就好,用程序或软件的话反而比较麻烦。但是如果数据
2022-02-06 15:32:32 3359
原创 如何对Excel列快速移动或对调?四种方法给你一点解决问题的灵感
工作中遇到关于excel的一个小小的问题,如下有32行71列数据,现在需要对71个列进行对调,如果是你,你会怎么解决?如果一列一列拖动,可以解决问题但是工作量大容易出错,所以得想个简便的方法。因为列标题恰好是日期,可以通过排序的方式对调,不过好像只有行排序,没有对列进行排序的功能菜单。那怎么办呢?
2022-02-05 22:17:09 2738
原创 数据分析初学入门——22本SQL学习书籍推荐
很多数据分析初学者都被推荐学SQL,SQL是最基础且是必备的技能之一,但是不知道该从何学起,很多课程讲了很多知识点,但是初学的朋友没有对这一领域整体框架的认识,不知道该学哪些知识、有哪些知识、实际工作需要到什么程度,常常会担心自己该用的没学、学了的没理解或不会用等等。这里通过介绍21本学习SQL的经典书籍(可以说几乎所有人们经典书籍都囊括在内,对初学者、从业者都认可和检验的)。
2022-01-12 09:58:11 7958
原创 PowerBI实现RFM模型动态可视化大屏?三十分钟教你从入门到高手
今天讲的是PowerBI实现RFM模型动态可视化大屏制作的过程。如果对于RFM模型的原理、计算步骤、打标签以及用法场景还不理解,请看我的另一篇文章“RFM模型的四种打标签方法你会几种?三十行代码教你深刻理解如何实现用户画像”,本篇是对这篇文章进行动态可视化实现,用到的也是那里的代码。 首先是对三种以均值为区分标准的静态打
2022-01-08 10:40:59 1851
原创 RFM模型的四种打标签方法你会几种?三十行代码教你深刻理解如何实现用户画像
如果想了解RFM模型的数据分析初学者去搜索,会发现无论是知乎大V还是百度都会有“清楚”的原理解释和过程实现,看懂了收藏了,但是当你自己去实际应用的时候会发现,我对着大V的文章跟着做这个看似简单的模型,为啥我用起来没效果呢?实际上不是你没学会或者没做对,而是对这个简单而又强大的细节没有理解。
2022-01-08 10:32:52 1260
原创 数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自己
下面将要介绍的是经过实践检验的、适用于数据分析师的模型。本文不会详细解释每个模型的细节,只是企图先搭建一个框架,知道有哪些模型、什么场景下使用、说得清主要环节,后续会一一结合可视化工具PowerBI或Python具体实践。换句话说,你知道的足够多才有优势,具体的用什么学什么就可以了。接下来从利用数据程度的角度,来介绍28种模型。
2021-12-04 08:48:45 2072 1
原创 关联规则算法怎么实现?Python代码、PowerBI可视化详细解释给你听(下-实战篇)
apriori 是一种流行的算法,用于在关联规则学习中应用提取频繁项集。apriori 算法旨在对包含交易的数据库进行操作,例如商店客户的购买。如果满足用户指定的支持阈值,则项集被认为是“频繁的”。例如,如果支持阈值设置为 0.5 (50%),则频繁项集被定义为在数据库中至少 50% 的所有事务中一起出现的一组项目。
2021-12-02 23:24:56 3029 4
原创 销售指标在下降该怎么分析?手把手教你多种方法和思路分析电商案例
在电商领域,最常遇到老板丢过来一个问题:“最近这个销售额在下降啊你来给我分析分析,想出几个有用的解决办法来”。又或者在数据分析师面试的时候面试官喜欢问:“现在有个产品的销售额下降了,你能给我拆解一下原因吗?” 这当然是数据分析师必备的知识储备啦,有同学就会回答:销售额=单价*销量。从价格方面找,是不是降价啦?是不是促销折
2021-11-30 18:51:11 4179
原创 完整的数据分析项目长什么样子?XX移动客户细分模型项目报告借你参考
一、项目背景及前阶段工作回顾1.1项目概述1.1.1项目主题:XX移动客户细分模型1.1.2项目范围:本期项目以XX市为试点城市1.1.3项目目的:按用户行为进行细分,客观反映用户需求。通过对各类人群的深入分析,为相关部门制订资费、服务、市场策略提供基础。1.1.4项目内容:a.建立客户细分模型b.结合各部门需求对客户细分群进行详细分析c.协助市场经营部进行相关服务、市场活动的策划1.2项目各阶段计划第一阶段:需求调研、项目范围界定 &
2021-11-29 18:51:47 855
原创 数据分析方法论or数据挖掘方法论,搞数据你会多少种?
数据分析小白往往在学了一大通数据分析工具,比如Excel/SQL/Python /java/SPSS什么的之后总感觉分析数据没思路,一是没有数据可供你分析,网上找的一堆数据都不是你“理想”的数据形态,因为学习用的数据好像都是恰好是解决学习的那个部分知识,别的问题都没有,很“干净";二是你自己爬数据或者找公司内部的数据,
2021-11-29 00:48:20 1202
原创 MySQL的书写顺序与执行逻辑?SQL条件过滤之否定筛选的五种解法教你搞懂它
数据分析写SQL取数回归到本质就是筛选或者过滤,对原始数据进行某种给定条件的筛选或者过滤,仔细思考一下表连接(join)不就是以另一张表为过滤条件、where后接的不就是过滤条件、group by分组不就是把分组情况作为条件?说到底就是按照条件的先后顺序一道一道把需要的数据筛选出来,因此条件过滤是SQL的基本技能,理解透了如何用join、如何用where、如何用gr
2021-11-24 09:35:46 633 1
原创 如何找到不是顾客购买因素的因素?SQL递归问题之生成递归的三种解法
SQL递归是数据无中生有或是父子关系这一类问题的特定解法。我们经常会遇到要找出不在某张表里的数据,但是这张表里的数据是缺失或者只有部分信息,那么就需要自己造数据;也会遇到部门上下级的编号在同一列需要找出谁是老板,谁是经理,谁是员工这样的问题。 初学者如果没有学过解决这类问题的办法,可能会束手无策。尝试连接查询、联合查询、窗口函数、
2021-11-23 16:09:21 693
原创 如何重新格式化透视表格?SQL行列转换问题之行转列的四种解法
把数据从行转列,从列转成行是常常遇到的经典问题,这种问题需要用特定的方法去解决,只要搞懂了就能解决这一类问题。总的来说,从行转列大多是要使用if语句或casewhen语句,从列转成行要使用的是union或union all语句。在实际工作中,我们常常要根据需求进行这样重新格式化表格数据,也叫透视或逆透视。如果你会使用PowerBI就会知道里面有个透视或逆透视的功能选项卡。 &nb
2021-11-22 18:14:09 911
原创 销售额超过公司均值的优秀经销商?SQL比例问题之分组比较的四种解法
分组比较是看起来比较简单,但是写起来比较麻烦的问题,一般就是先进行两个不同分组计数、求和、求均值,然后两个均值作比较,这样就涉及表连接和判断,写的代码量就比其他问题多很多。它与连续问题、排名问题和累加问题不同的是,后面三个问题是数据行之间纵向产生关系,而这里是横向产生关系。 这类问题也是有一定套路的,下面用实际案例数据还
2021-11-21 11:22:51 622
原创 写了那么多SQL,它是怎么运转的呢?--Mysql的逻辑架构及基础
数分第一步,会写MySQL。我们看到很多数据分析的基础教程他们都讲了什么是SQL,然后也会详细的告诉你怎么写增删改查语句,每个关键词都详细地剖析怎么使用,但是你学习了很多SQL基础知识以及做了很多SQL练习题之后还可能是对SQL一知半解,甚至当你面试的时候做一道你没遇到过的SQL题或者给你一道SQL让你分析它的运行效率时,你就傻眼了。你知道这是为什么吗?因为我们对MySQL的机制不了解,也没有系统化地对自己学习到的SQL知识进行系统化整理,一遇到实际问题就傻眼了。那么我们这个教程就是来告诉大家MySQL的底
2021-11-20 23:07:57 572
原创 累计销售突破百万是哪一天?SQLSQL累计问题之金额累加的五种解法
累计/累加问题是数据分析师经常遇到需要处理的情况,比如根据二八法则,百分之二十的产品销售数占到总额的百分之八十,就需要先求数额累计。这个问题在Excel中实现很简单,但是如果要用SQL取数就没有那么容易。下面用实际案例数据还原真实取数场景,帮助你在实战中理解如何实现累计取数的过程,总结思路。需求:如果你是某网店的数据分析师,现在老板要求吸引老顾客,对老顾客开展一项回馈活动,要找出自开店以来使店铺销售额达到一百万那一天的所有顾客。注意:不能超过一百万,也就是找到的顾客订单金额与之前所有订单金额之和小于等.
2021-11-19 23:32:51 2022
原创 连续60天畅销产品怎么找?SQL相邻问题之连续登录的四种解法
SQL中关于连续登录问题也是经常遇到的难点,Leetcode上有很多花样百出的考察连续问题的题目。简单点的,对初学者来说很容易解答,但是真在实际工作中遇到恐怕会遇到各种各样的问题。 有时候看到一些职场人士吐槽现在SQL考察越来越难了,几年前的“难题”现在成了入门级的。而我们现在初学者练习的基本SQL题远不能让你真正掌握SQL取数要
2021-11-18 19:05:33 539
原创 茴字有几种写法?SQL排名问题之全局排名的四种解法
“茴”字有几种写法?SQL排名问题之全局排名的四种解法 排名问题恐怕无论是公司面试还是日常工作都会经常遇到的问题。有很多初学者虽然学会了基本的SQL查询,也练习了一些SQL题目,但是始终不得SQL的要领。究竟怎么才能深刻掌握如何SQL取数呢?当然是会举一反三啦!举一隅不以三隅反,你就是没学会~ 下面通过一个小小的例子来帮助你思考的排名问题,希望对你有所帮助。而且我们使用的是公司实际数据而不是简单的几行数据,在接下来的例子中你会感受到几行数据的查询和几万行乃至上百
2021-11-17 19:44:31 159
原创 1001系列之案例0004如何从餐厅订单数据中挖掘有效信息
本案例主要在于使用pandas的分组聚合函数和日期时间函数做简单分析。import os #导入必要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings("ignore")os.chdir("D:\Data\File") #指定工作目
2021-05-26 15:39:12 711
原创 1001系列之案例0003如何对欧洲人口普查数据集整理挖掘
一、欧洲人口普查数据分析本案例重点在于对数据质量的清洗、转换,、可视化。import os #导入需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ignore")os.chdir(r"D:\Datalu\File") #指定工作目录%matplotlib inline
2021-05-26 08:34:35 544 1
原创 1001系列之案例0002如何从斯德哥尔摩气温数据集中可视化挖掘
本案例的重点在于Matplotlib可视化的基础操作实战练习。import os #导入必要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ignore")os.chdir("D:\Datalu\File") #指定工作目录%matplotlib inline .
2021-05-25 22:52:47 502 2
原创 1001系列之案例0001如何从淘宝销售数据集中挖掘有效信息
一、淘宝数据集挖掘本案例重点有二:重点一在于如何修改数据类型以降低内存占用,这对大数据非常重要;重点二在于分析变量之间的关系,单变量分布,双变量相关或方差分析,多变量回归或分类;#导入必要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings("ignore")#指定工作路径以导入数
2021-05-25 17:43:07 488
原创 1001系列之pandas0002如何从CSV&text files文件中导入导出数据
一、pd.read_csv()模块简介数据挖掘任务的数据源不仅来自数据库,也可能来自已经整理好的表格等结构化数据和网页等非结构化数据。本节内容主要讲如何从CSV等text file中导入数据。当任务需求不同时,可以定制导入到Python中的数据,甚至当数据量过大时,还需要考虑分批导入或者转换数据类型以减少占用内存空间。#导入pandas库import pandas as pdimport numpy as npfrom io import StringIO二、pd.read_csv()的参数
2021-05-18 19:05:19 258
原创 1001系列之pandas0001如何从Mysql数据库中导入导出数据
一、Pymysql模块简介 Mysql数据库是数据挖掘任务的数据源之一,通过pymysql模块可以直接连接MySQL数据库,进行增删改查等操作。Python连接MySQL的流程如下:1.1cursor(游标)的作用 为什么要建立一个cursor(游标)? 因为当python与数据库连接时并不是一次性读取了所有数据,而是根据SQL语言进行操作。cursor在这里相当于执行SQL查询的货车,在Mysql数据库和Python程序之间传递信息。二、实际操作连接数据库2.1 导
2021-05-18 10:20:40 721
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人