自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 这个二分类绘图挺好看

# -*- coding: utf-8 -*-#1 导入包和数据# Importing the Librariesimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd# Importing the datasetdataset = pd.read_csv('../datasets/Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy .

2020-05-18 16:38:29 922

原创 python中dataframe将一列中的数值拆分成多个列

起初的数据是这样的想将page_no这一列拆分成多个列,然后将其中的值都作为列名。想要做成的结果如下图(也就是统计每个id下各个page_no出现的次数)实现的思路是先对page_no这一列进行one-hot编码,将一列变为多列,然后再用cishu列与之相乘,最后进行groupby之后加和,就得到了最终结果。代码如下:df = pd.get_dummies(TestA_...

2020-05-01 16:09:31 17768 3

原创 datawhale--机器学习之线性规划

理论部分:周志华--机器学习--第三章:3.1 基本形式3.2 线性回归Label encoder(适用于属性取值之间存在着“序”(order)的关系)离散属性连续化:对离散属性,如果属性取值之间存在着“序”(order)的关系,则可以将其连续化。eg:{高、低}--{1,0}One-hot encoder :(适用于属性取值之间无“序”的关系)...

2020-04-22 07:43:39 585

原创 特建模与调参

# -*- coding: utf-8 -*-'''这个文件的目的,做一个baseline'''#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。## 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pypl...

2020-04-01 20:13:01 421

原创 datawhale 数据挖掘-特征工程

# -*- coding: utf-8 -*-'''这个文件的目的,产生特征并进行输出。'''#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import pandas as pdimport numpy as npimport matplotl...

2020-03-27 16:44:45 207 1

原创 datawhale_数据探索

进行了简单的数据探索github崩了,无法传代码我先把部分代码放在这里把,这两天审稿意见回来了,比较忙,后天再补一些# -*- coding: utf-8 -*-#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import pandas as ...

2020-03-23 22:39:53 174

原创 python查看各列缺失值情况

#查看缺失值num_fea_bank = pd.isna(fea_bank).sum()print(num_fea_bank)

2019-09-15 10:34:05 9192 1

原创 python对dataframe进行groupby之后求标准差

报错情况:AttributeError: 'str' object has no attribute 'sqrt'解决方案:原来代码为df_mp_sta_std = df_mp_grouped.agg(np.std)后来改为df_mp_sta_std = df_mp_grouped.agg(np.std,ddof = 0)注意ddof即为有偏还是无...

2019-09-04 11:09:57 6989

原创 编程过程中减少内存占用的方法

1 将训练好的模型变成pkl格式进行保存print("---save model--")with open('xgb_model.pkl', 'wb') as f: pickle.dump(bst, f)with open('xgb_model.pkl', 'rb') as f: myxgb = pickle.load(f)其中的bst便是train完之后的...

2019-08-24 21:10:24 1745

原创 datawhale随机森林

提问,随机森林随机性的来源一共有哪些。做了个ppt,见附件

2019-08-07 14:53:49 137 1

原创 python动态变量的命名

 locals()['dfid'+str(item_id)]

2018-07-23 09:26:47 1278

原创 如何将groupby之后的groupby对象转化为dataframe

先将其转换成为字典,再将字典赋值给dataframedictSale_skuid = dict(list(dfSale.groupby('item_sku_id',as_index=False)))mydf = DataFrame(dictSale_skuid[item_id])

2018-07-23 09:25:15 23584 3

第四节基于树的方法.pdf

2-6行数据为训练集(training set) 第7行数据为测试集(testing set) ⚫ 目标是通过训练集训练决策树 从而得出测试集中缺失的标签

2019-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除