数据预处理
Python小萝卜
这个作者很懒,什么都没留下…
展开
-
nc数据转tif在python上的实现
nc数据转成tif数据代码原创 2022-05-22 13:16:47 · 422 阅读 · 0 评论 -
气候数据处理代码实现
案例根据站点降雨量日数据求月总降雨量、年总降雨量、月降雨天数、年降雨天数等。数据部分数据如下:统计结果python代码原创 2021-01-24 22:30:45 · 1188 阅读 · 2 评论 -
pandas实现多行合并一行、一行拆分多行
多行合并一行import pandas as pd#构造数据data=pd.DataFrame({'id':[1,1,2,2],'品牌':['A','B','C','D']})#合并数据data_new=data.groupby(['id'])['品牌'].apply(list).to_frame()data_new['品牌']=data_new['品牌'].apply(lambda x:str(x).replace('[','').replace(']',''))合并前合并后原创 2020-07-03 15:04:39 · 18629 阅读 · 3 评论 -
python实现smote处理正负样本失衡问题
机器学习中难免遇到正负样本不平衡问题,处理办法通常有梁总,一:过采样,增加正样本数据;二:欠采样,减少负样本数据,缺点是会丢失一些重要信息。smote属于过采样。代码# from imblearn.over_sampling import BorderlineSMOTE# from imblearn.over_sampling import SMOTENC# from imblearn.over_sampling import SVMSMOTE# from imblearn.o...原创 2020-07-03 14:28:34 · 2800 阅读 · 2 评论 -
mysql多行合并一行,一行拆分多行
多行合并一行数据#建表语句DROP TABLE IF EXISTS `品牌`;CREATE TABLE `品牌` ( `id` int(0) NOT NULL, `品牌` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dyna原创 2020-06-24 16:48:31 · 1015 阅读 · 0 评论 -
python pandas实现partition by组内排序功能
import pandas as pdimport numpy as npdic={'科目':['语文','语文','语文','语文','数学','数学','数学','数学','英语','英语','英语','英语'], '姓名':['赵大','钱二','孙三','李四','周五','郑六','王七','朱八','小红','小明','小李','小王'], '分数':[95,84,93,88,91,93,84,85,94,93,83,87]}data=pd.DataF.原创 2020-06-24 11:47:31 · 3479 阅读 · 0 评论 -
训练集产生的onehot编码特征如何在测试集、预测集复现
数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。代码import pandas as pdfrom sklearn.preprocessing import OneHotEncoderohe = OneHotEncoder(handle_unknown='ignore')data_train=pd.DataFram...原创 2020-06-05 14:52:33 · 3254 阅读 · 2 评论 -
python缺失值填充
1. 用固定值填充对于特征值缺失的一种常见的方法就是可以用固定值来填充。data['分数'] = data['分数'].fillna('-1')2. 用均值填充对于数值型的特征,其缺失值也可以用未缺失数据的均值填充。data['分数'] = data['分数'].fillna(data['分数'].mean()))3. 用众数填充与均值类似,可以用未缺失数据的众数来...原创 2019-04-26 15:50:12 · 17174 阅读 · 1 评论 -
python特征选择
回归问题特征选择波士顿房价数据from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an example boston = load_boston() X = boston["d...原创 2019-04-26 15:52:40 · 1878 阅读 · 0 评论