Anaconda
Anaconda中安装XGBoost、Lightgbm、CatBoost
pip下安装lightgbm、catboost在Anaconda环境中的Jupyter里并不能使用,pip的lightgbm、catboost默认安装在本地python环境中,而anaconda的python路径与本地路径不同,不能使用本地环境中的包
$pip install xgboost
$conda install -c conda-forge lightgbm
$conda install -c conda-forge catboost
Pandas
填充Dataframe中的缺失值(nan)
nan为非数,且nan!=nan,在数据中为缺失值,当对数据进行预处理时,需对缺失值进行处理,一种方式为删掉含有缺失值的行或列,另一种则是对nan值进行填充。
进行填充的方式如下:
columns_with_nan=['column_include_nan_1','column_include_nan_2',
'column_include_nan_3']
for i in columns_with_nan:
X_all[i].fillna(-1.0,inplace=True)
对所给非数字的数据进行硬编码
X_all=pd.DataFrame(YourData)
used_columns=['column1','column2','column3']
for i in used_columns:
c_Map = {elem:index+1 for index,elem in enumerate(set(X_all[i]))}
X_all[i] = X_all[i].map(c_Map)
更改列的数据类型
example_df=pd.DataFrame(YourData)
example_df.astype(数据类型)