- 博客(15)
- 收藏
- 关注
原创 sklearn 中的MiniBatchKMeans(聚类)使用
1、前期准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn.cluster import MiniBatchKMeansfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.dec...
2018-12-31 10:18:26 5417
原创 sklearn的PCA使用
1、数据准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAimport time#读取训练数据和测试数据t...
2018-12-31 10:09:35 2382
原创 LightGBM使用指南
1、准备import lightgbm as lgbmimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import log_lossfrom matplotlib import pyplotimport seabor...
2018-12-30 11:18:35 2541
转载 Pandas速查手册
本文转自《Pandas速查手册中文版》对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网:Python Data Analysis Library(2)十分钟入...
2018-12-27 15:22:38 142
原创 决策树参数调优建议
建议一:三个最重要的参数为:树的数目、树的深度和学习率。建议参数调整策略为:– 采用默认参数配置试试– 如果系统过拟合了,降低学习率– 如果系统欠拟合,加大学习率建议二:– n_estimators和learning_rate:固定n_estimators为100(数目不大,因为树的深度较大,每棵树比较复杂),然后调整learning_rate– 树的深度max_depth:从...
2018-12-25 20:57:27 8902 1
原创 sklearn中XGBoost的使用
1、数据准备from xgboost import XGBClassifierimport xgboost as xgbimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import Stratifi...
2018-12-25 20:43:19 3310 1
原创 sklearn中随机森林的使用
1、数据准备与《sklearn中决策树的使用》中相同,这里不再累述、2、使用步骤from sklearn.ensemble import RandomForestClassifiermodel_RR=RandomForestClassifier()model_RR.fit(X_train,y_train)y_prob = model_RR.predict_proba(X_test...
2018-12-25 10:39:33 630
原创 sklearn中决策树的GridSearchCV参数调优
决策树的超参数有:max_depth(树的深度) max_leaf_nodes(叶子结点的数目) max_features(最大特征数目) min_samples_leaf(叶子结点的最小样本数) min_samples_split(中间结点的最小样本树) min_weight_fraction_leaf(叶子节点的样本权重占总权重的比例) min_impurity_split(最...
2018-12-25 10:34:12 6731
原创 sklearn中决策树的使用
1、数据准备import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics im...
2018-12-25 09:54:28 1816
原创 人工智能—XGBoost使用指南
步骤: 1. 读取数据--> DMatrix 2. 设置参数 3. 模型训练:train/cv 3.1: train with 在校验集上early stop 3.2: cv 4. 预测 1、读取数据XGBoost可以加...
2018-12-22 10:06:50 882 2
原创 Logistic 回归—SVM正则参数调优操作笔记
1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为logloss#from sklearn.metrics import log_loss #SVM并不能直接输出各类的概率,所以在这个例子中我们...
2018-12-17 10:56:59 1214
原创 Logistic 回归—LogisticRegressionCV实现参数优化
1、准备# 首先 import 必要的模块import pandas as pd import numpy as np from sklearn.model_selection import GridSearchCV #竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import p...
2018-12-16 10:02:05 16186 6
原创 Logistic 回归—网格搜索最优参数笔记
1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import pypl...
2018-12-16 09:47:46 12292 1
原创 人工智能—线性回归模型笔记
1、准备阶段import pandas as pd%matplotlib inlinedata = pd.read_csv("boston_housing.csv")data.head()data.isnull().sum()# 从原始数据中分离输入特征x和输出yy = data['MEDV'].values# 默认删除行,列需要加axis = 1X = data.dro...
2018-12-12 09:29:58 5967
原创 人工智能—数据探索操作笔记
1、读取数据import pandas as pddata = pd.read_csv("boston_housing.csv")#获取前五条数据data.head() # 数据基本信息data.info() # 查看是否有空值data.isnull().sum() # 各属性的统计特性data.describe()2、单变量分析import matplotlib...
2018-12-11 16:05:00 393
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人