数据分析
JY HUA
这个作者很懒,什么都没留下…
展开
-
KFold StratifiedKFold GroupKFold的应用场景及示例代码
1. kfold普通的k折交叉验证from sklearn.model_selection import KFold2. stratifiedkfold平衡label的k折交叉验证。在类别label不平衡时使用,如0、1分类时,0的样本量和1的样本量差异悬殊。from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_...原创 2020-07-13 15:31:51 · 1220 阅读 · 0 评论 -
pandas常用命令
文件结构:## 查看python库版本pd.show_versions()# pd.__version__## 查看python包安装位置import syssys.path## 查看模块信息help('modules')## 读取当前文件路径from pathlib import PathPath.cwd()raw_file = ‘%s/data/raw/’%Path.cwd()processed_file = ‘%s/data/processed/'%Pat.原创 2020-05-19 12:05:00 · 645 阅读 · 0 评论 -
数据分析 - 使用boxcox将数据正态化 python版
box和cox在1964年提出的变换可以使线性回归模型满足线性性、独立性、齐方差性以及正态性,同时又不丢失信息。在做线性回归的过程中,一般线性模型假定:(线性性、独立性、齐方差性以及正态性)真实数据往往不完美符合这四个特性,而大多数数据统计都要求数据为正态分布(比如pearson相关系数)。因此可以通过boxcox改变一下数据形式。boxcox的数学原理:逆变换公...原创 2019-07-09 15:44:40 · 3404 阅读 · 0 评论 -
python连接mongodb数据库,并将数据存成dataframe
首先需要有连接mongodb数据库基本信息 :CONFIG_HOST= '11.111.11.11'CONFIG_PORT='27017'CONFIG_DATABASE = 'databasename'CONFIG_USER='username'CONFIG_PASSWORD = XXXXXXCONFIG_TABLE = 'tablename'python通过p...原创 2019-08-20 11:12:38 · 1526 阅读 · 0 评论 -
dataframe常用操作笔记
Q:dataframe样本按行打乱from sklearn.utils import shuffledf_final = shuffle(df_final)df_final.reset_index(drop=True,inplace=True)原创 2019-10-09 16:53:01 · 153 阅读 · 0 评论