2020年08月_Avasla

原创探索性数据分析（三）—— 异常值处理

异常值是什么？什么原因导致异常值。找出和剔除异常值的方法介绍

2020-08-31 21:20:10 6382

原创 SQL淘宝用户数据分析

本项目使用sql和Excel对淘宝用户行为数据进行分析和可视化展示，通过建立用户行为转化漏斗模型、商品销售分析、使用RFM模型对用户分层，找到针对不同商品、用户群体的营销策略。

2020-08-28 22:50:22 2465

创建一个库； create database Exercise;查看库是否建立成功：show databases；使用这个练习库； use Exercise;查看库里的表格show tables;！！尤其要注意逗号格式是否正确！！创建表格create table oneonesale( id int, 姓名 varchar(100), 邮箱地址 varchar(100), 最后登陆时间 date );插入信息数据：insert into oneonesale(id,姓

2020-08-27 22:06:57 2839

原创交叉验证方法汇总【附代码】（留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证）

交叉验证是什么？在模型建立中，通常有两个数据集：训练集（train）和测试集（test）。训练集用来训练模型；测试集是完全不参与训练的数据，仅仅用来观测测试效果的数据。一般情况下，训练的结果对于训练集的拟合程度通常还是挺好的，但是在测试集总的表现却可能不行。比如下面的例子：图一的模型是一条线型方程。可以看到，所有的红点都不在蓝线上，所以导致了错误率很高，这是典型的不拟合的情况图二的蓝线则更加贴近实际的红点，虽然没有完全重合，但是可以看出模型表示的关系是正确的。图三，所有点都在蓝线上，这时候

2020-08-24 13:45:20 84530 23

原创 Matplotlib饼图显示部分数据标签

调用下面的my_autopctdef my_autopct(pct): return ('%.2f' % pct) if pct > 20 else '' ax.pie(df[col], labels=df.index, autopct=my_autopct, colors=colors)http://www.voidcn.com/article/p-mpsvokeq-bvo.html

2020-08-18 23:16:49 3933 1

原创 python replace 一列数据中不同数据字符替换成相同内容

直接将替代内容，= 所在列data[‘Initial’]=data[‘Initial’].replace([‘Mme’,‘Capt’,‘Col’,‘Countess’,‘Don’,‘Dr’,‘Jonkheer’,‘Lady’,‘Major’,‘Master’,‘Mlle’,‘Mme’,‘Rev’,‘Sir’],‘others’)...

2020-08-14 12:43:02 1581

原创银行贷款预测模型项目（Loan Prediction)（下）

前言：在《银行贷款预测模型项目（Loan Prediction)（上）》中，记录了整个项目的数据分析和预处理过程。下篇继续记录项目的建模流程，一共分成两个部分：第一部分（Part1）建立模型（Part I）1. 数据集切分将目标变量和其他数据变量分开。###modeltrain = train.drop('Loan_ID',axis=1)test=test.drop('Loan_ID',axis=1)X=train.drop('Loan_Status',1)y=train.Loan_St

2020-08-10 14:21:31 6962 3

原创银行贷款预测模型项目（Loan Prediction)（上）

项目背景银行选择是否贷款给申请人，是日常生活中经典的二分类问题。在审批流程中，需要考虑贷款申请人的各种信息，比如家庭情况、经济情况、房子情况等等，经过综合分析这些因素最后决定是否要贷款给申请人，即审批通过还是拒绝。数据探索性分析1. Understand the Data了解数据#导入模块包import pandas as pd import numpy as np # For mathematical calculations import seab

2020-08-10 13:55:03 12642 4

原创探索性数据分析EDA（二）—— 缺失值处理

主要内容为缺失值处理方法介绍，以及相关python代码及sklearn.impute的使用介绍。

2020-08-10 10:16:55 2555

原创探索性数据分析EDA（一）——变量识别与分析

1.数据探索和预处理的步骤处理步骤：1）变量识别（Variable Identification）2）单变量分析（Univariate Analysis）3）双变量分析（Bi-variate Analysis）4）缺失值处理（Missing values treatment）5）异常值处理（Outlier treatment）6）变量转换（Variable transformation）7）变量构造（Variable creation）1）变量识别（Variable Identi

2020-08-05 10:39:56 5031 2

原创 SQL(Join连接语法)

Join连接查询是另一种类型的多表查询。连接查询对多个表进行JOIN运算，简单地说，就是先确定一个主表作为结果集，然后，把其他表的行有选择性地“连接”在主表结果集上。假设查询语句是：SELECT … FROM tableA ??? JOIN tableB ON tableA.column1 = tableB.column2;我们把tableA看作左表，把tableB看成右表，那么INNER JOIN是选出两张表都存在的记录：LEFT OUTER JOIN是选出左表存在的记录：RIGHT OU

2020-08-03 16:05:13 298

WHYbeHERE的博客