自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

花与花

数据搬运工

  • 博客(47)
  • 资源 (3)
  • 收藏
  • 关注

原创 一文搞懂lookup、vlookup、hlookup函数与index、match函数的使用

lookup函数解析当需要查询一行或一列并查找另一行或列中的相同位置的值时,会使用其中一个查找和引用函数LOOKUP。使用方式向量形式在一行或一列中搜索值。 如果要指定包含要匹配的值的区域,请使用这种形式。 例如,如果要在 A 列中向下搜索值到第 6 行。语法:LOOKUP(①查找值,②查找值所在区域,③返回的结果)②为单行区域或单列区域,查找值所在区域必须先排序,否则出错。③可以省略没有精确匹配对象时,返回小于等于目标值的最大值重要: lookup_vector 中的值必须按升序排列:

2021-07-25 21:09:09 233

原创 美团差评数据分析,python代码实现

文章目录明确问题理解数据处理数据异常值处理标签处理新增计算列数据分析分析思路描述性分析探索性分析送达总时长时间过长,导致的差评骑手个人行为导致的差评商户行为导致的差评其他评价标签的白描建议明确问题美团骑手出现差评的原因是什么?影响因素是哪些?并给出改善方案。(骑手姓名重复默认为同一个骑手;同一个骑手可能在不同站点出现差评)数据时间:无;数据地点:站点A-E;核心业务指标:顾客配送评分;比较对象:差评订单信息记录。理解数据序号:差评订单序号;站点名称:站点A-F,查找发现美团站点就是美团商家。骑

2021-02-09 20:38:04 459 2

原创 pandas常用操作

文章目录安装包镜像地址豆瓣镜像清华镜像获取数据table、mysql、csvto_excel/to_csv选取数据修改列名序号编码One_Hot编码df.query方法新增数据列数据处理类pandas按区间进行切分数据分列汇总类统计唯一去重和按值计数重复值缺失值数据排序字符串操作Pandas的字符串处理:格式化字符串操作:按照统一的规则输出字符串pandas对axis和index的理解pandas的axis参数的理解pandas的索引index用途实现DataFrame的merge,concatmergec

2021-02-09 20:36:05 174

原创 SQL行列问题

日常工作中,为了让数据的可读性更强,经常会对数据格式进行转化操作。总结一下日常工作中遇到的关于行列操作问题。单行拆分成多行--创建测试数据CREATE TABLE fwj.customer(id STRING,name STRING,mobiles STRING);INSERT INTO fwj.customerSELECT '1','jim','139,177,158' FROM system.dual;-- 解法一,不建议选择SELECT a.id,a.name,substr

2021-01-04 21:31:18 84

原创 SQL Server时间函数

一、统计语句1、–统计当前【>当天00点以后的数据】SELECT * FROM 表 WHERE CONVERT(Nvarchar, dateandtime, 111) = CONVERT(Nvarchar, GETDATE(), 111) ORDER BY dateandtime DESC2、–统计本周SELECT * FROM 表 WHERE datediff(week,[dateadd],getdate())=03、–统计本月SELECT * FROM 表 WHERE date

2020-08-20 17:45:07 62

原创 设计精美Power Bi报告的诀窍以及让人眼前一亮的精美Power Bi图表

文章目录设计精美Power Bi报告诀窍一、使用对齐工具二、一次调整多个视觉效果三、使用主题四、使用搜索更快地格式化五、添加令人惊叹的图像形状元素六、对数据使用适当的可视化效果让人眼前一亮的精美Power Bi图表Infographic DesignerWalkers Animated PictogramAnimated Bar Chart RaceHorizontal bar chartSmall Multiple Line ChartChartAccent - LineChartChordBox and

2020-07-29 21:50:46 1254

原创 数据库开发设计规范及表结构设计原则

文章目录一. 命名规范二. 库表基础规范三. 字段规范四. 索引规范五. SQL设计一、正规化表设计原则二、SQL设计六. 行为规范一. 命名规范1.库名、表名、字段名必须使用小写字母,并采用下划线分割(1)MySQL有配置参数lower_case_table_names=1,即库表名以小写存储,大小写不敏感。如果是0,则库表名以实际情况存储,大小写敏感;如果是2,以实际情况存储,但以小写比较。(2)如果大小写混合使用,可能存在abc,Abc,ABC等多个表共存,容易导致混乱。(3)字段名显示区分

2020-07-26 20:12:12 427

原创 过拟合(overfitting)和欠拟合(underfitting)出现原因及如何避免方案
原力计划

文章目录欠拟合一、什么是欠拟合?二、欠拟合出现原因三、解决欠拟合(高偏差)的方法过拟合一、什么是过拟合?二、过拟合出现原因三、解决过拟合(高方差)的方法欠拟合一、什么是欠拟合?欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。二、欠拟合出现原因模型复杂度过低特征量过少三、解决欠拟合(高偏差)的方法1. 模型复杂化• 对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐

2020-06-28 21:45:44 1534

原创 统计学中常用的数据分析方法汇总

文章目录一、描述统计二、假设检验三、信服分析四、列联表分析五、相关分析六、方差分析一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量

2020-06-21 15:38:22 2362

原创 探索性数据分析EDA及数据分析图表的选择

文章目录一、探索性数据分析EDA二、数据分析图表的选择一、探索性数据分析EDA探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先验假设,而是通过作图表和统计等方式来探索数据结构和规律。在EDA中你可以构思各种各样的假设,并通过数据分析去寻找相应的反馈,以此迭代来寻找到数据集中分布的规律。在探索的过程中会随着不断的深入对数据理解更加深刻。EDA的流程如下:提出问题;筛选、清洗数据;分析数据;构建模型;得出结论。EDA的过程与数据挖掘的流

2020-06-21 15:25:10 267

原创 MYSQL性能优化
原力计划

文章目录一、 优化思路二、常见数据库引擎对比三、数据库配置四、索引优化五、排序优化六、读写分离配置七、表结构优化分析查询语句Mysql优化,一方面是找出系统的瓶颈,提高mysql数据库整体的性能,另外一个方面需要合理的结构设计和参数调整,以提高用户操作响应的速度。同时还要尽可能节省系统资源,以便系统可以提供更大负荷的服务。mysql数据库优化是多方面的,原则是减少系统的瓶颈,减少资源的占用,增加系统反应的速度。一、 优化思路选择合适的数据库引擎配置优化Sql优化:性能瓶颈定位、show stat

2020-05-12 11:53:11 255

转载 ETL详解

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。         ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不

2020-05-09 19:28:23 98

原创 STP分析--保险公司客户分类分析(采用SPSS进行分析)
原力计划

文章目录研究目的:精准营销研究内容:客户分类维度数据获取与处理设计调查问卷及确定调研计划数据处理数据分析架构客户细分目标客户选择目标客户定位数据分析与输出结果确定分类维度分类维度的消减适应性检验因子提取因子旋转因子命名研究目的:精准营销“集中优势兵力,打击一点”,通过对车险客户分类调研,开展精准营销,以便建立起自身的相对优势。研究内容:客户分类维度客户分类维度共五种:自然属性因素一一客户...

2020-05-05 22:36:05 4006

原创 MySql:函数总结

文章目录字符串函数数学函数日期和时间函数流程函数其他函数字符串函数数学函数日期和时间函数流程函数其他函数

2020-05-04 21:52:09 81

原创 Power Bi:DAX函数总结
原力计划

文章目录信息函数关系函数日期与时间函数筛选器函数逻辑判断函数逻辑函数统计函数文本函数信息函数关系函数日期与时间函数1.计算年初至今累计--TOTALYTD函数 例如计算年初至今累计的销售金额:[年累计金额]:=TOTALYTD([销售金额], '日历年'[日期])# 如果要加上一个时间截止点,则写为:[年累计截止金额]:=TOTALYTD([销售金额],...

2020-05-04 15:04:33 1231

原创 Power Bi:零售数据可视化

文章目录理解数据含义确定需要解决的问题根据问题新建度量值确定背景、主题、字体及字体大小结果展示理解数据含义本次可视化共有四张表,根据数据说明文档选择自己需要的特征,不需要的数据列隐藏。确定需要解决的问题根据问题新建度量值确定背景、主题、字体及字体大小结果展示...

2020-05-02 20:35:20 516

原创 Kaggle:Video Game Sales电子游戏销售分析(Tableau展示)

文章目录项目介绍分析思路导图数据导入项目介绍项目来源:Kaggle;项目介绍:由vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,希望产生一份综合的游戏行业报告;数据介绍:包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据,11个字段共1.66W数据量,字段包括:RANK-总销售额的排名Name-游戏的名字Platform-游戏发布平台(即PC,P...

2020-04-29 15:54:05 1183 2

原创 电子商城战略分析(采用定性与定量分析方法)

文章目录研究目的:战略选择研究目的:战略选择判断市场是否有吸引力:

2020-04-27 21:03:39 606

原创 基于用户行为的电商网站服务推荐数据实例(基于物品的协同过滤算法)

文章目录背景与挖掘目标分析方法和过程数据抽取数据探索分析网页类型分析背景与挖掘目标随着网站访问量的增大,数据信息量也在大幅度增长,用户在面对大量信息时无法及时从中获得自己需要的信息,对信息的使用效率越来越低,这种浏览大量无关信息的过程,使用户需要大量的时间才能找到自己需要的信息,从而使用户不断流失,给企业造成巨大的损失,为了能够更好地满足用户需求,将信息准确地推荐给所需用户,帮助用户发现他们感...

2020-04-26 19:43:31 635

原创 营销组合(4P营销)分析案例:采用SPSS+Excel进行分析

文章目录研究目的研究目的

2020-04-22 22:03:37 2221 1

原创 kaggle共享单车数据分析及预测(随机森林)

文章目录

2020-04-09 14:45:28 3858 6

原创 Python数据预处理数据的方法总结(使用sklearn-preprocessing)

文章目录数据预处理思路1. 标准化:去均值,方差规模化数据预处理思路1.首先要明确有多少特征,哪些是连续的,哪些是类别的。2.检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。3.对连续的数值型特征进行标准化,使得均值为0,方差为1。4.对类别型的特征进行one-hot编码。5.将需要转换成类别型数据的连续型数据进行二值化。6.为防止过拟合或者其他原因,选择是否要将数据...

2020-04-01 16:02:31 2249

原创 数据分析常用Python库:数值计算、可视化、机器学习等领域

镜像pip安装阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban) http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 htt...

2020-03-17 16:45:00 385

原创 Jupyter Notebook安装 nbextensions 插件

安装 nbextensions 插件一、打开Anaconda Prompt窗口,执行第一个命令,用于安装nbextensions:pip install jupyter_contrib_nbextensions二、再执行第二个命令,用于安装 javascript and css filesjupyter contrib nbextension install --user三、最后执行,用...

2020-03-16 22:57:42 860

原创 常见的几种流失预警模型

建立预警模型的目的是提前识别潜在流失用户,为挽留用户赢得时间。流失预警模型,不应该只是单一的模型,而应该是一系列模型。预警模型的优劣通常用准确率、召回率来衡量。准确率:预测为流失的用户中,有多少真的流失。召回率:真实的流失用户中,有多少被预测为流失。对于结果类的预测模型,只关注预测的准确性。比如,预测股票的涨跌,只要模型预测准确,按预测结果操作即可。但对于策略类的预测模型,预测只是第一步,还需...

2020-03-10 14:45:30 2609

原创 Sklearn.metrics评估方法

文章目录混淆矩阵分类准确率 accuracy精确率Precision召回率 recall混淆矩阵混淆矩阵的APIfrom sklearn.metrics import confusion_matrix confusion_matrix = confusion_matrix(y_test, y_predict)分类准确率 accuracy所有样本中被预测正确的样本的比率分类模型总体判...

2020-03-07 17:12:13 319 1

原创 机器学习算法优缺点对比及选择

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个...

2020-03-04 14:35:18 655

原创 贷款利润最大化——利用随机森林和逻辑回归

文章目录分析目的一、数据采集1、数据来源2、数据说明二、数据传输三、数据处理分析目的本文针对某信贷网站提供的2007-2011年贷款申请人的各项评估指标,建立关于信贷审批达到利润最大化模型,即对贷款人借贷状态(全额借贷、不予借贷)进行分类,从而实现贷款利润最大化,并采用不同算法进行评估。一、数据采集1、数据来源数据来源,这个要注册登录,也可以直接点击下载数据链接下载。下载链接,提取码:n...

2020-03-03 16:56:23 440

原创 MYSQL练习题

MYSQL练习题数据表建立代码及题目解答提取码:e6lk

2020-03-02 11:29:59 95

原创 幸福感数据分析与预测

文章目录前言前言“你幸福吗”,“我姓福”。努力的意义究其根本就是为了获取幸福感,让自己愉悦。当阴雨连绵之后的太阳你会觉得幸福,拿到第一份工资会觉得幸福,与幸福感相关的因素成千上万、因人而异,每个人对幸福感都有自己的衡量标准,影响幸福感的因素主要会是什么呢,什么样的人幸福感更强呢?我们研究的问题是:影响幸福感的因素有什么?什么样的人幸福感更强?...

2020-02-24 22:18:59 1519 14

原创 清华镜像源安装 NGboost XGboost Catboost

pip install catboost -i https://pypi.tuna.tsinghua.edu.cn/simplepip install ngboost -i https://pypi.tuna.tsinghua.edu.cn/simplepip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple

2020-02-17 12:59:29 2125

原创 关于数据运营的一点小思考

随着互联网行业的快速发展,其所带来的行业红利和流量红利基本上告别野蛮生长阶段,现代人越来越依赖互联网,看似市场大,但用户选择多,互联网产品淘汰得比刚开始更快。野蛮生长虽然发展快,但是伴随的弊端也随之浮现。精细化管理成为一种必然趋势,在达到降低成本的同时提高效率,透过现象看本质,从本质出发,解决根源性问题。措施针对性激活刚开始做产品推广时,由于有优惠会吸引大量客户,但通过用户留存分析这些客户流...

2020-02-11 13:35:39 164

原创 淘宝用户行为分析

前言现在越来越多的线下转型到了线上经营,线下体验店线上购物将成为日后消费的大趋势。分析用户行为,走好转型之路,掌握先机快人一步。文章目录前言背景Ⅰ 数据来源Ⅱ 数据背景Ⅲ 分析目的背景Ⅰ 数据来源数据来源于阿里池公共数据集,搜索userbehavior就可出来。Ⅱ 数据背景本次数据分析从数据集中选取包含了Ⅲ 分析目的...

2020-02-08 16:16:44 909

原创 电商用户行为分析与挖掘(MYSQL数据分析+SPSS构建RFM模型)

背景毫不夸张的说在中国除了婴幼儿及七八十以上的老年人,都有过网购经历。文章目录背景

2020-01-11 16:24:45 1370

原创 数据分析-书籍整理(三)

《淘宝网店大数据营销》一套网店搭建的整体体系,从如何做好网店展开说,有很多实用方法,对运营有很大的帮助,方便数据分析人员理解业务《京东平台数据化运营》讲解了一些京东的知识,很多更淘宝运营相似,只是简单的看了一下。...

2020-01-06 14:31:08 71

原创 MYSQL错误: ERROR 1205: Lock wait timeout exceeded(处理MYSQL锁等待)解决办法

在运行数据库某一语句的时候(数据量大概有一亿条),运行的特别慢,可能是我自己电脑配置不高,因此想删选一些数据但是运行的时候报1205错误。原因有会话执行过DML操作,然后没commit提交,再执行删除操作,就锁了。解决办法1、先查看数据库的事务隔离级别:select @tx_isoloation;MySQL默认的事务隔离级别就是REPEATABLE-READ2、然后查看当前数据库的线...

2020-01-03 13:29:35 453

原创 MYSQL快速导入大量数据

创建数据表,并导入1.根据数据特征建表,create语句2.语句导入数据LOAD DATA INFILE 'D:/UsersBehavior.csv' INTO TABLE users CHARACTER SET utf8 FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '"' LINES TER...

2020-01-02 19:31:31 1659

原创 公司人员离职情况分析及预测(工具:python)

背景目前社会上呈现出一种公司招不到人,大批失业人员的矛盾现象,且大部分公司的离职率居高不下,很多入职没多久就辞职,所花费的培训招聘等资源都浪费了。为了弄清楚公司员工离职原因,通过kaggle上某一家企业员工离职的真实数据来对离职率进行分析建模。文章目录背景数据来源及背景明确分析目的数据来源及背景数据来源: 数据来源,数据下载链接,提取码:byfz数据背景: 该数据集是指某公司员工的离职数...

2020-01-02 15:30:36 5749 4

原创 数据分析方法-聚类算法

文章目录一、定义二、聚类、分类区别分类聚类常用算法一、定义聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。数据之间的相似性是通过定义一个距离或者相似性系数来判别的。二、聚类、分类区别分类分类聚类是一种有监督式的学习过程是一种无监督式的学...

2019-12-30 16:54:08 913

原创 数据分析统计学基础一

文章目录数据分析方法分类1、单纯的数据加工方法2、基于数理统计的数据分析方法3、基于数据挖掘的数据分析方法4、基于大数据的数据分析方法数据分析方法分类1、单纯的数据加工方法a.描述性统计分析(集中、离中趋势分析和数据分布)b.相关性分析2、基于数理统计的数据分析方法方差分析、回归分析(特指一元线性回归)、因子分析3、基于数据挖掘的数据分析方法a.聚类分析b.分类分析(决策树、人工神经...

2019-12-30 14:32:42 366

PowerBI星球TABLEAU星球-数据集.zip

POWERBI数据集打包,里面有各种数据集可以下载来做POWERBI实战练习,还有部分tableau数据集提供下载

2020-04-29

常用汉字及生僻字(可搭配Jieba分词使用)

列举出常用的汉字3550个,还有生僻字

2021-07-09

常用中文停用词表(常用四份停用词表进行了合并去重)

中文停用词表, 哈工大停用词表, 百度停用词表, 四川大学机器智能实验室停用词库四份停用词表进行了合并去重

2021-07-09

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除