【数据分析与挖掘】
数据分析与挖掘
汪雯琦
广告平台商业化策略·Python·数据分析·数据挖掘·机器学习·人工智能
展开
-
高级Excel技能(一):怎么保护锁定工作簿,不让别人看内容、不让别人改结构、不让别人修改数据
(1)文件(2)信息(3)保护工作簿(4)用密码进行加密原创 2020-04-20 23:51:44 · 3967 阅读 · 0 评论 -
数据分析模型及商业决策(五):主要分析方法之组间差异分析(AB测试)
分类之后AB测试:将某个产品/方案/设计的两个不同版本随机展示给类似的用户群体,以各组之间的效果差异来评估选择更好的那个应用场景:测试两种促销短信文案对商品销量的影响测试淘宝,京东以及今日头条等APP,哪个版本的新闻标题或者广告会更容易被点击技术支持:系统后台已经有了丰富的历史销售数据通过大数据获取到用户的人口属性信息(挑选测试客群变得非常容易)自动化营销系统辅助AB版本的...原创 2020-04-20 13:46:18 · 1597 阅读 · 0 评论 -
数据分析模型及商业决策(四):主要分析方法之分类分析方法
分类用来实现用户的精准营销案例挖掘最有可能购买产品的用户群数据中要有目标变量x包括顾客的基本信息逻辑回归属于分类模型的一种评判逻辑回归的好坏具体的实现,见python专栏...原创 2020-04-19 23:31:37 · 813 阅读 · 0 评论 -
数据分析模型及商业决策(三):主要分析方法之回归分析方法
文章目录引入例子引入数据中变量的相关关系是为我们做出预测的基本前提例子用户的性别和所使用手机的品牌之间的关系观察数据:可以看出,有三分之二的女性喜欢的是iphone手机如果再给我们6个女性用户,我们就会正确判断4次,错误判断2次...原创 2020-04-19 23:23:16 · 696 阅读 · 0 评论 -
数据分析模型及商业决策(二):主要分析方法之聚类分析方法
文章目录数据分析中主要的分析方法与统计概念连接起来的重点四个方法的内在联系数据分析驱动业务的根本目标聚类分析方法1.聚类分析是什么2.常见的聚类分析应用场景客户分群的目的客户分群的数据维度客户管理和市场营销的从业者们的应用基于聚类的客户分群的作用某个旅游企业对用户数据的积累K-Means聚类==核心:====是一种快速聚类法==具体的工作流程数据分析中主要的分析方法聚类分析 (怎么判断用户属...原创 2020-04-19 15:29:41 · 2596 阅读 · 1 评论 -
数据分析模型及商业决策(一):带你一文掌握统计学基础
文章目录【描述数据的统计学工具】一、统计分为两大类二、数据案例引入2.1销售数据2.2销售额表现怎么样?2.3可视化三、数据的集中度四、数据的离散度五、数据的相关性5.1案例5.2散点图5.3计算相关系数六、总结【概率与概率分布】一、描述性统计的局限性二、两种主要的数据类型三、概率四、应用4.1从分类型数据来看概率的具体应用4.2从数字型数据来看概率的具体应用正态分布【估计和假设检验验证】一、样本...原创 2020-04-19 12:49:01 · 2748 阅读 · 0 评论 -
解决Tableau中怎么生成经纬度,显示不了地图
问题:我们双击省、自治区但是没有自动生成经纬度分析:因为字段的类型不对,是abc而不是地图,解决:修改字段的类型在数据源这里修改修改成对应的地图就会自动生成经纬度了加上件数等其他维度也可以了...原创 2020-04-17 15:48:39 · 23178 阅读 · 4 评论 -
手把手教你操作Tableau——真实公司数据分析项目实例(完整详细,小白也能学会)
业务问题业务部门给报表提供了下列的要求:想要知道那些地区的销售情况比较好,那些地区的销售情况比较差,因此希望能够看到销售指标在全国的分布情况想要了解今年的销量和前几年相比是否有增长,因此需要看到销量随着时间的走势想要有没有卖的件数少但是消费金额高的优质客户?因此需要了解交易笔数和交易金额两者的分布以及两者之间是否存在一定的相关关系需要销售报表,产品信息和会员信息步骤:1.打开tabl...原创 2020-04-16 23:46:07 · 33735 阅读 · 44 评论 -
【数据分析小技能】几种数据可视化及应用场景
1.比较数据的大小如果目的是比较数据的大小是否按照时间维度进行大小的比较?如果是,折线图是最佳的选择如果不是,条形图或柱状图2.展示数据的组成没有标记时间,用饼图显示不同时间点下的展示,叠加柱状图3.了解数据的分布分类型变量的使用上可以按照每十岁一组来进行各年龄段的分布4.找到数据的关系散点图:两个数字型变量之间的关系气泡图:增加气泡大小的维度做好可视化的原则低效率报...原创 2020-04-16 22:40:49 · 942 阅读 · 0 评论 -
用户画像(七):基于用户搜索数据,建立预测模型
绘图函数,以性别为例,绘制混淆矩阵import matplotlib.pyplot as pltimport itertoolsdef plot_confusion_matrix(cm, classes, title='Confusion matrix', cmap=plt.cm.Blue...原创 2020-04-14 23:53:50 · 1315 阅读 · 0 评论 -
用户画像(六):基于用户搜索数据,构造输入特征
加载训练好的word2vec模型,求用户搜索结果的平均向量import numpy as npfile_name = './data/train_querylist_writefile-1w.csv'cur_model = gensim.models.Word2Vec.load('1w_word2vec_300.model')with open(file_name, 'r') as f:...原创 2020-04-14 23:51:20 · 616 阅读 · 0 评论 -
用户画像(五):基于用户搜索数据,姊妹构造词向量特征
第一步:生成对应的数据表import pandas as pd#编码转换完成的数据,取的是1W的子集trainname = './data/user_tag_query.10W.TRAIN-1w.csv'testname = './data/user_tag_query.10W.TEST-1w.csv'data = pd.read_csv(trainname,encoding='gb...原创 2020-04-14 23:48:33 · 789 阅读 · 0 评论 -
用户画像(四):基于用户搜索数据可以做什么,采取哪些方案呢
可以基于用户搜索关键词数据为用户打赏标签比如年龄,性别,学历这个的整体流程如下:(一)数据预处理编码方式转换对数据搜索内容进行分词词性过滤数据检查(二)特征选择建立word2vec词向量模型对所有搜索数据求平均向量(三)建模预测不同机器学习模型对比堆叠模型将原始数据转换成utf-8编码,防止后续出现各种编码问题以下代码基于1w的数据...原创 2020-04-14 23:25:08 · 1031 阅读 · 0 评论 -
用户画像(三):对用户搜索数据的理解
第一列是id第2,3,4列分别是年龄,性别,学历,我们已经有了这些数据要去形成搜索和这些标签的模型然后根据新的数据,来做这三个标签的用户画像...原创 2020-04-13 23:05:41 · 958 阅读 · 0 评论 -
用户画像(二):给大家分享一套我建立用户画像的思维
文章目录怎么建立用户画像呢例子用户画像的应用怎么建立用户画像呢要贴标签,先要有数据,一般讲用户数据划分为静态信息数据、动态信息数据两大类。静态数据:用户相对稳定的信息,如性别、地域、职业、消费等级等。动态数据:用户不停变化的行为信息,如浏览网页、搜索商品、发表评论等。手工去做?人为贴标签?刚开始可以手工,但长期的话,人力的成本会越来越高滴!!需要我们找到最合适的数据,去建模一个体系...原创 2020-04-13 22:25:37 · 926 阅读 · 0 评论 -
用户画像(一):我对用户画像的理解
文章目录什么是用户画像你知道吗为什么需要用户画像你知道吗什么是用户画像你知道吗在我的理解就是用户信息的标签化,您只需要掌握以下几点就好了:Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型根据用户的目标、行为和观点的差异,将题目区分为不同的类型,每种类型中抽取出典型特征,形成了一个人物原型通俗解释:用户信息标签化官方回答:用户画像又称用户角色,作为一种勾...原创 2020-04-13 21:31:58 · 1672 阅读 · 0 评论 -
用Python进行时间处理合集(最详细了,不断更新,建议收藏)
用Python进行时间处理合集文章目录用Python进行时间处理合集一、Time1.1.获取当前时间1.2.将时间戳转化为时间元组1.3.struct_time(时间元组)中各部分的含义1.4.获取格式化时间asctime方法:直接获取可读的时间格式strftime方法:获取自定义格式的时间,获取对象为时间元组1.5.时间日期格式化符号1.6.将格式字符串转换为时间戳time.mktime(ti...原创 2020-03-26 14:39:44 · 2579 阅读 · 0 评论 -
python封装的异常值处理函数(包括箱线图去除异常值等)
# 这里我包装了一个异常值处理的代码,可以随便调用。def outliers_proc(data, col_name, scale=3): """ 用于清洗异常值,默认用 box_plot(scale=3)进行清洗 :param data: 接收 pandas 数据格式 :param col_name: pandas 列名 :param scale: 尺度...原创 2020-03-26 11:11:08 · 8992 阅读 · 9 评论 -
Python中的%matplotlib inline
我们在代码中经常会看到这儿样的代码:import pandas as pdimport numpy as npimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom operator import itemgetter%matplotlib inline那么%matplotlib inl...原创 2020-03-26 10:50:35 · 3100 阅读 · 1 评论 -
Python中的operator.itemgetter函数
Python中的sorted函数以及operator.itemgetter函数文章目录Python中的sorted函数以及operator.itemgetter函数operator.itemgetter函数operator.itemgetter函数operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),下面看例子。a ...原创 2020-03-26 10:31:38 · 268 阅读 · 0 评论 -
用pandas_profiling生成一个全面的可视化和数据报告
安装包:pip install pandas_profiling -i https://pypi.douban.com/simple如果出现失败,重新运行一次即可,他会自动匹配到正确的包帮你卸载并安装正确的版本导入包正确:生成数据报告:prf = pandas_profiling.ProfileReport(Train_data)prf.to_file('./shujubaogao...原创 2020-03-25 23:44:16 · 423 阅读 · 0 评论 -
多变量之间的关系可视化——Seaborn.pairplot
文章目录1.导入需要用的包2.基本格式数据指定特殊参数基础参数返回3.多变量之间的关系图(1)散点图(2)指定分类变量的散点图使用调色板使用不同的形状(3)改变对角图使用KDE使用回归(4)改变点形状,使用参数,使用edgecolor1.导入需要用的包#-*- coding:utf-8 -*-from __future__ import divisionimport numpy as np...原创 2020-03-25 22:20:33 · 9709 阅读 · 4 评论 -
skewness and kurtosis偏态和峰度的解释和演示、数据的偏度和峰度——df.skew()、df.kurt()
skewness (偏态)正偏态分布(positive skewness distribution)是指频数分布的高峰偏于左侧,偏态系数为正值的频数分布形态。偏态分布分为正偏态和负偏态。当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。定义上偏度是样本的三阶标准化矩,定义式如下,其中k2,k3分别表示二阶、三阶中心矩:还可以这么来看:kurtosis(峰度)==峰度(peake...原创 2020-03-25 16:28:04 · 12836 阅读 · 1 评论 -
总体分布概况符合无界约翰逊分布(johnsonsu)的情况
前提:有一列price的数据y = Train_data['price']我们看看他符合什么总体分布无界约翰逊分布johnsonsu?正态norm?对数正态(比正态偏上一点)lognorm?代码:import scipy.stats as stimport seaborn as snsy = Train_data['price']plt.figure(1); plt.title...原创 2020-03-25 16:06:04 · 7785 阅读 · 4 评论 -
将其他符号换成空值nan的方法
Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)原创 2020-03-25 15:22:46 · 1708 阅读 · 0 评论 -
可视化缺失值的库——missingno的使用方法和案例演示
可视化缺失值的库——missingno文章目录可视化缺失值的库——missingno1.安装程序包并加载2.导入训练数据集3.无效矩阵的数据密集显示4.条形图5.热图相关性6.树状图1.安装程序包并加载#pip install missingnoimport missingno as msno2.导入训练数据集import pandas as pdimport numpy as n...原创 2020-03-25 15:01:32 · 3917 阅读 · 0 评论 -
分类算法常见的评估指标和案例演示
一般问题评价指标说明:什么是评估指标:评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)一般来说分类和回归问题的评价指标有如下一些形式:分类算法常见的评估指标如下:对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。...原创 2020-03-25 11:10:30 · 922 阅读 · 0 评论 -
分类指标precision精准率计算时报错 Target is multiclass but average='binary'. Please choose another average setti
报错 Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].解决:加上参数,average='micro'源代码:# precisionimport numpy as npfrom sklea...原创 2020-03-25 10:53:47 · 4280 阅读 · 0 评论 -
回归预测常见的评估指标及计算案例
回归预测常见的评估指标平均绝对误差(Mean Absolute Error,MAE)均方误差(Mean Squared Error,MSE)平均绝对百分误差(Mean Absolute Percentage Error,MAPE)均方根误差(Root Mean Squared Error)R2(R-Square)平均绝对误差MAE平均绝对误差MAE,其能更好地反映预测值与真实值误...原创 2020-03-25 10:28:45 · 3865 阅读 · 0 评论 -
数据分析之Power BI(四):瀑布图的绘制
原创 2020-03-09 00:00:39 · 3756 阅读 · 0 评论 -
数据分析之Power BI(三):Power BI如何导入自定义视觉图像(附上百种自定义视觉图像)
自定义图像下载资源:https://download.csdn.net/download/qq_35456045/12235168原创 2020-03-08 22:57:37 · 5776 阅读 · 4 评论 -
数据分析之Power BI(二):Power BI导入数据、修改数据、查看数据、绘制图形等基本操作
第一步第二步第三步第四步编辑进入到power query可以修改名字,删除行列第五步保存更改第六步查看数据第七步简单的作图原创 2020-03-08 22:49:21 · 8615 阅读 · 0 评论 -
数据分析之Power BI(一):Power BI的安装步骤
1.下载到官网安装包2.一直点击下一步3.选择一个安装的盘,命名好4.安装5.等待安装6.完成7.登陆这里需要使用企业或者教育邮箱,没有的话可以使用...原创 2020-03-08 22:28:49 · 3923 阅读 · 0 评论 -
Matplotlib画饼图不圆怎么办,不是标准圆怎么办
# 将横、纵坐标轴标准化处理,确保饼图是一个正圆,否则为椭圆plt.axes(aspect='equal')原创 2020-02-29 23:25:43 · 3110 阅读 · 1 评论 -
Matplotlib画图中中文乱码和坐标轴负号的代码处理
# 中文乱码和坐标轴负号的处理plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']plt.rcParams['axes.unicode_minus'] = False原创 2020-02-29 23:24:29 · 588 阅读 · 1 评论 -
解决报错:AttributeError: 'AxesSubplot' object has no attribute 'set_xtickslabels'
文章目录源代码报错解决源代码# 需求:多个坐标系# 创建画布的时候要修改了# 用subplots# 参数nrows多少行,我们现在需要一行两列nrows=1# 参数ncols多少列,我们现在需要一行两列你cols=2# 参数figsize是画布大小我们设置为figsize=(20,8)# dpi# plt.subplots(nrows=1,ncols=2,figsize = (2...原创 2020-02-29 14:19:13 · 56140 阅读 · 6 评论 -
Matplotlib添加图例时解决报错:No handles with labels found to put in legend.
文章目录源代码报错原因解决源代码# 需求:再添加一个城市的温度变化#导入工具import matplotlib.pyplot as pltimport random#创建画布plt.figure(figsize=(20,8),dpi = 80)#绘制图像,画出安徽省宣城市泾县11点到12点1小时内每分钟的温度变化折线图,#温度范围在15度~18度(随机产生)x = ran...原创 2020-02-29 12:12:49 · 6831 阅读 · 0 评论 -
Python的Matplotlib简易教程(速查详细版)——非常全,目录清晰,建议收藏
文章目录学完本文,您会收获些什么?一、Matplotlib之HelloWorld学完本节,您会收获些什么?1 什么是Matplotlib2 为什么要学习Matplotlib3 实现一个简单的Matplotlib画图4 认识Matplotlib图像结构(拓展,了解)5 Matplotlib三层结构(拓展,了解)5.1 容器层5.2 辅助显示层5.3 图像层6 小结二、折线图(plot)与基础绘图功能...原创 2020-02-26 23:57:47 · 6626 阅读 · 5 评论 -
解决matplotlib显示不了中文的问题(适用于linux、windows、mac)
中文显示问题解决下载中文字体(黑体,看准系统版本)下载 SimHei 字体(或者其他的支持中文显示的字体也行)安装字体linux下:拷贝字体到 usr/share/fonts 下:sudo cp ~/SimHei.ttf /usr/share/fonts/SimHei.ttfwindows和mac下:双击安装删除~/.matplotlib中的缓存文件cd ...原创 2020-02-26 23:51:48 · 894 阅读 · 0 评论 -
Jupyter Notebook怎么安装jupyter_contrib_nbextensions库:自动补全代码功能+pep8+字体大小+代码行号+拼写检查+目录索引+代码自动补全
Jupyter Notebook中自动补全代码等相关功能拓展(安装jupyter_contrib_nbextensions库)文章目录Jupyter Notebook中自动补全代码等相关功能拓展(安装jupyter_contrib_nbextensions库)效果展示:安装jupyter_contrib_nbextensions库然后执行重启jupyter notebook勾选需要的功能部分功能...原创 2020-02-26 22:39:54 · 5499 阅读 · 1 评论