自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 pandas 中get_dummies() 与factorize()的区别

pandas 中get_dummies() 与factorize()的区别当一个特征中存在较多的类别时,使用get_dummies() 会导致DataFrame中的columns 列数激增factorize() 可以对特征中的类别创建一些数字,来表示分类变量或者枚举型变量(enumerated type)。具体来说:factorize() 只产生一个特征变量,这个特征中对类别使用数字进行区分。适用于出现较多独立变量的情况参考e.p....

2021-03-31 23:25:32 192

原创 Airbnb data analysis

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.image as mpimg%matplotlib inlineimport seaborn as snsfrom pprint import pprintRead Dataairbnb = pd.read_csv('./new-york-city-airbnb-open-data/AB_NYC_2019.csv')

2021-03-30 22:58:37 418

原创 conda 无法更新/ 创建新环境 报错

解决方法:conda clean -i

2021-03-19 23:32:51 460

原创 【相关性检验】

两个变量之间的相关性检验1、皮尔森相关系数:它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。要判断两个变量之间是否存在相关性:可以采用画散点图的方式,进行直观性的分析。使用python进行person检验import pandas as pdimport numpy as npimport missingnodf = pd.read_csv('./titanic/train.csv')df.head() P

2021-03-16 22:17:06 2380

原创 用Python进行全面的数据探索

用Python进行全面的数据探索import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom scipy.stats import normfrom sklearn.preprocessing import StandardScalerfrom scipy import statsimport missingno as mnoimport seaborn as snsimport warnings

2021-03-08 22:46:24 894

原创 conda 导出安装包列表

conda 导出安装包列表conda list -e > condalist.txt导入conda install --yes --file condalist.txt

2021-03-06 16:27:44 4983

原创 SQL每日一题【0305】

每日一题有如下表T0305a ,T0305bT0305a+------+--------+| ID | ZHI | +------+--------+| 1 | 1 | | 1 | 2 | | 1 | 1 | | 2 | 2 | | 2 | 1 | +------+--------+T0305b+------+--------+| ID | ZHI | +------+-----

2021-03-05 15:00:03 113

原创 SQL每日一题【0304】

每日一题有如下表T0304T0304+------+--------+------+---------------------+| ID | A_Type | A_NO | A_Time |+------+--------+------+---------------------+| 1 | A | 1 | 2019-01-21 00:00:00 || 2 | A | 2 | 2019-01-27 00:00:00 |

2021-03-04 22:43:58 322 2

原创 Lag()、Lead()函数及其使用

语法Lag和Lead函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。LAG语法:LAG(<expression>[,offset[, default_value]]) OVER ( PARTITION BY expr,... ORDER BY expr [ASC|DESC],... )LEAD语法:LEAD(<expression>[,offset[, default_value]]) OVER ( PARTITION B

2021-03-04 22:29:02 1198 1

原创 Python调用mysql存储过程

Python调用mysql存储过程import pymysqlconn = pymysql.connect(host= '127.0.0.1',port = 3306, user = 'root',password = 'root', database = 'test',charset = 'utf8')cur = conn.cursor()cur.callproc('T1') # 调用存储过程conn

2021-03-04 16:52:43 465 1

原创 Navicat创建存储过程

存储过程存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。存储过程是数据库中的一个重要对象。在数据量特别庞大的情况下利用存储过程能达到倍速的效率提升。又称轮子。使用Navicat创建存储过程无参数存储过程create procedure 存储过程名称()begin <sql语句> ;end;在Navicat

2021-03-04 16:47:27 2150 1

原创 MAC地址匹配

用于计算MAC地址匹配数量import pandas as pdimport numpy as npimport reimport ospath = 'D:\Personal\Downloads'df1 = pd.read_csv(os.path.join(path,'1.csv'),skiprows = 7 ,encoding='gbk')df2 = pd.read_csv(os.path.join(path,'2.csv'),header = None)df2.rename(colu

2021-03-04 14:43:37 560 1

原创 偏度和峰度

偏度和峰度偏度(skewness)数据分布的的不对称性称为偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为右偏(正偏)和左偏(负偏)两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下,平均数、中位数和众数是合而为一的。在偏态分布的情况下,平均数、中位数与众数是分离的。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。右向偏态,众数的数值较小,平均数的数值较大,平均数与众数之差为正值,因此右向偏态又称为正向偏态。如果众数在右边,平均数在左边,

2021-03-03 20:29:52 11715 1

原创 missingno库--用于数据分析中处理缺失数据可视化

missingnmissingn --github# 安装pip install missingno快速开始pip install quiltquilt install ResidentMario/missingno_data学习地址:https://www.cnblogs.com/yongestcat/p/11458057.html

2021-03-02 23:50:48 332

原创 共享单车--数据分析

共享单车EDA与模型选择import pandas as pd import numpy as npfrom matplotlib import pyplot as pltimport seaborn as snsfrom datetime import datetimeimport osimport warningswarnings.filterwarnings(action = 'ignore')Kaggle-competition-bike-sharing-demandEDA

2021-03-01 23:03:59 2048

中文核心期刊目录2019最新.doc

最新北大中文核心期刊目录2019版,供大家学习交流。希望都能发好论文啊

2019-08-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除