自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 探索性数据分析(三)—— 异常值处理

异常值是什么?什么原因导致异常值。找出和剔除异常值的方法介绍

2020-08-31 21:20:10 6382

原创 SQL淘宝用户数据分析

本项目使用sql和Excel对淘宝用户行为数据进行分析和可视化展示,通过建立用户行为转化漏斗模型、商品销售分析、使用RFM模型对用户分层,找到针对不同商品、用户群体的营销策略。

2020-08-28 22:50:22 2465

原创 SQL窗口函数练习题(排名问题、topN问题)

创建一个库; create database Exercise;查看库是否建立成功:show databases;使用这个练习库; use Exercise;查看库里的表格show tables;!!尤其要注意逗号格式是否正确!!创建表格create table oneonesale( id int, 姓名 varchar(100), 邮箱地址 varchar(100), 最后登陆时间 date );插入信息数据:insert into oneonesale(id,姓

2020-08-27 22:06:57 2839

原创 交叉验证方法汇总【附代码】(留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证)

交叉验证是什么?在模型建立中,通常有两个数据集:训练集(train)和测试集(test)。训练集用来训练模型;测试集是完全不参与训练的数据,仅仅用来观测测试效果的数据。一般情况下,训练的结果对于训练集的拟合程度通常还是挺好的,但是在测试集总的表现却可能不行。比如下面的例子:图一的模型是一条线型方程。 可以看到,所有的红点都不在蓝线上,所以导致了错误率很高,这是典型的不拟合的情况图二 的蓝线则更加贴近实际的红点,虽然没有完全重合,但是可以看出模型表示的关系是正确的。图三,所有点都在蓝线上,这时候

2020-08-24 13:45:20 84530 23

原创 Matplotlib饼图显示部分数据标签

调用下面的my_autopctdef my_autopct(pct): return ('%.2f' % pct) if pct > 20 else '' ax.pie(df[col], labels=df.index, autopct=my_autopct, colors=colors)http://www.voidcn.com/article/p-mpsvokeq-bvo.html

2020-08-18 23:16:49 3933 1

原创 python replace 一列数据中不同数据字符替换成相同内容

直接将替代内容,= 所在列data[‘Initial’]=data[‘Initial’].replace([‘Mme’,‘Capt’,‘Col’,‘Countess’,‘Don’,‘Dr’,‘Jonkheer’,‘Lady’,‘Major’,‘Master’,‘Mlle’,‘Mme’,‘Rev’,‘Sir’],‘others’)...

2020-08-14 12:43:02 1581

原创 银行贷款预测模型项目(Loan Prediction)(下)

前言:在《银行贷款预测模型项目(Loan Prediction)(上)》中,记录了整个项目的数据分析和预处理过程。下篇继续记录项目的建模流程,一共分成两个部分:第一部分(Part1)建立模型(Part I)1. 数据集切分将目标变量和其他数据变量分开。###modeltrain = train.drop('Loan_ID',axis=1)test=test.drop('Loan_ID',axis=1)X=train.drop('Loan_Status',1)y=train.Loan_St

2020-08-10 14:21:31 6962 3

原创 银行贷款预测模型项目(Loan Prediction)(上)

项目背景银行选择是否贷款给申请人,是日常生活中经典的二分类问题。在审批流程中,需要考虑贷款申请人的各种信息,比如家庭情况、经济情况、房子情况等等,经过综合分析这些因素最后决定是否要贷款给申请人,即审批通过还是拒绝。数据探索性分析1. Understand the Data了解数据#导入模块包import pandas as pd import numpy as np # For mathematical calculations import seab

2020-08-10 13:55:03 12642 4

原创 探索性数据分析EDA(二)—— 缺失值处理

主要内容为缺失值处理方法介绍,以及相关python代码及sklearn.impute的使用介绍。

2020-08-10 10:16:55 2555

原创 探索性数据分析EDA(一)——变量识别与分析

1.数据探索和预处理的步骤处理步骤:1)变量识别 (Variable Identification)2)单变量分析 (Univariate Analysis)3)双变量分析(Bi-variate Analysis)4)缺失值处理 (Missing values treatment)5)异常值处理(Outlier treatment)6)变量转换(Variable transformation)7)变量构造 (Variable creation)1)变量识别 (Variable Identi

2020-08-05 10:39:56 5031 2

原创 SQL(Join连接语法)

Join连接查询是另一种类型的多表查询。连接查询对多个表进行JOIN运算,简单地说,就是先确定一个主表作为结果集,然后,把其他表的行有选择性地“连接”在主表结果集上。假设查询语句是:SELECT … FROM tableA ??? JOIN tableB ON tableA.column1 = tableB.column2;我们把tableA看作左表,把tableB看成右表,那么INNER JOIN是选出两张表都存在的记录:LEFT OUTER JOIN是选出左表存在的记录:RIGHT OU

2020-08-03 16:05:13 298

Convolution and ReLu

Convolution and ReLu 学习代码

2023-08-14

Bigmart Sales Data

Bigmart Sales Data

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除