2018年12月_枫-麟

原创 sklearn 中的MiniBatchKMeans(聚类)使用

1、前期准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn.cluster import MiniBatchKMeansfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.dec...

2018-12-31 10:18:26 5417

原创 sklearn的PCA使用

1、数据准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAimport time#读取训练数据和测试数据t...

2018-12-31 10:09:35 2382

原创 LightGBM使用指南

1、准备import lightgbm as lgbmimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import log_lossfrom matplotlib import pyplotimport seabor...

2018-12-30 11:18:35 2541

转载 Pandas速查手册

本文转自《Pandas速查手册中文版》对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网站。（1）官网：Python Data Analysis Library（2）十分钟入...

2018-12-27 15:22:38 142

原创决策树参数调优建议

建议一：三个最重要的参数为:树的数目、树的深度和学习率。建议参数调整策略为:– 采用默认参数配置试试– 如果系统过拟合了,降低学习率– 如果系统欠拟合,加大学习率建议二：– n_estimators和learning_rate:固定n_estimators为100(数目不大，因为树的深度较大,每棵树比较复杂),然后调整learning_rate– 树的深度max_depth:从...

2018-12-25 20:57:27 8902 1

原创 sklearn中XGBoost的使用

1、数据准备from xgboost import XGBClassifierimport xgboost as xgbimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import Stratifi...

2018-12-25 20:43:19 3310 1

原创 sklearn中随机森林的使用

1、数据准备与《sklearn中决策树的使用》中相同，这里不再累述、2、使用步骤from sklearn.ensemble import RandomForestClassifiermodel_RR=RandomForestClassifier()model_RR.fit(X_train,y_train)y_prob = model_RR.predict_proba(X_test...

2018-12-25 10:39:33 630

原创 sklearn中决策树的GridSearchCV参数调优

决策树的超参数有：max_depth（树的深度） max_leaf_nodes（叶子结点的数目） max_features（最大特征数目） min_samples_leaf（叶子结点的最小样本数） min_samples_split（中间结点的最小样本树） min_weight_fraction_leaf（叶子节点的样本权重占总权重的比例） min_impurity_split（最...

2018-12-25 10:34:12 6731

原创 sklearn中决策树的使用

1、数据准备import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics im...

2018-12-25 09:54:28 1816

原创人工智能—XGBoost使用指南

步骤： 1. 读取数据--> DMatrix 2. 设置参数 3. 模型训练：train/cv 3.1: train with 在校验集上early stop 3.2: cv 4. 预测 1、读取数据XGBoost可以加...

2018-12-22 10:06:50 882 2

原创 Logistic 回归—SVM正则参数调优操作笔记

1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为logloss#from sklearn.metrics import log_loss #SVM并不能直接输出各类的概率，所以在这个例子中我们...

2018-12-17 10:56:59 1214

原创 Logistic 回归—LogisticRegressionCV实现参数优化

1、准备# 首先 import 必要的模块import pandas as pd import numpy as np from sklearn.model_selection import GridSearchCV #竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import p...

2018-12-16 10:02:05 16186 6

原创 Logistic 回归—网格搜索最优参数笔记

1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import pypl...

2018-12-16 09:47:46 12292 1

原创人工智能—线性回归模型笔记

1、准备阶段import pandas as pd%matplotlib inlinedata = pd.read_csv("boston_housing.csv")data.head()data.isnull().sum()# 从原始数据中分离输入特征x和输出yy = data['MEDV'].values# 默认删除行，列需要加axis = 1X = data.dro...

2018-12-12 09:29:58 5967

原创人工智能—数据探索操作笔记

1、读取数据import pandas as pddata = pd.read_csv("boston_housing.csv")#获取前五条数据data.head() # 数据基本信息data.info() # 查看是否有空值data.isnull().sum() # 各属性的统计特性data.describe()2、单变量分析import matplotlib...

2018-12-11 16:05:00 393

evolution23的博客