自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 sklearn 中的MiniBatchKMeans(聚类)使用

1、前期准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn.cluster import MiniBatchKMeansfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.dec...

2018-12-31 10:18:26 5417

原创 sklearn的PCA使用

1、数据准备#导入必要的工具包import pandas as pdimport numpy as npfrom sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAimport time#读取训练数据和测试数据t...

2018-12-31 10:09:35 2382

原创 LightGBM使用指南

1、准备import lightgbm as lgbmimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import log_lossfrom matplotlib import pyplotimport seabor...

2018-12-30 11:18:35 2541

转载 Pandas速查手册

本文转自《Pandas速查手册中文版》对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网:Python Data Analysis Library(2)十分钟入...

2018-12-27 15:22:38 142

原创 决策树参数调优建议

建议一:三个最重要的参数为:树的数目、树的深度和学习率。建议参数调整策略为:– 采用默认参数配置试试– 如果系统过拟合了,降低学习率– 如果系统欠拟合,加大学习率建议二:– n_estimators和learning_rate:固定n_estimators为100(数目不大,因为树的深度较大,每棵树比较复杂),然后调整learning_rate– 树的深度max_depth:从...

2018-12-25 20:57:27 8902 1

原创 sklearn中XGBoost的使用

1、数据准备from xgboost import XGBClassifierimport xgboost as xgbimport pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import Stratifi...

2018-12-25 20:43:19 3310 1

原创 sklearn中随机森林的使用

1、数据准备与《sklearn中决策树的使用》中相同,这里不再累述、2、使用步骤from sklearn.ensemble import RandomForestClassifiermodel_RR=RandomForestClassifier()model_RR.fit(X_train,y_train)y_prob = model_RR.predict_proba(X_test...

2018-12-25 10:39:33 630

原创 sklearn中决策树的GridSearchCV参数调优

决策树的超参数有:max_depth(树的深度) max_leaf_nodes(叶子结点的数目) max_features(最大特征数目) min_samples_leaf(叶子结点的最小样本数) min_samples_split(中间结点的最小样本树) min_weight_fraction_leaf(叶子节点的样本权重占总权重的比例) min_impurity_split(最...

2018-12-25 10:34:12 6731

原创 sklearn中决策树的使用

1、数据准备import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics im...

2018-12-25 09:54:28 1816

原创 人工智能—XGBoost使用指南

步骤:            1. 读取数据--> DMatrix            2. 设置参数            3. 模型训练:train/cv                3.1: train with 在校验集上early stop                3.2: cv            4. 预测   1、读取数据XGBoost可以加...

2018-12-22 10:06:50 882 2

原创 Logistic 回归—SVM正则参数调优操作笔记

1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为logloss#from sklearn.metrics import log_loss #SVM并不能直接输出各类的概率,所以在这个例子中我们...

2018-12-17 10:56:59 1214

原创 Logistic 回归—LogisticRegressionCV实现参数优化

1、准备# 首先 import 必要的模块import pandas as pd import numpy as np from sklearn.model_selection import GridSearchCV #竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import p...

2018-12-16 10:02:05 16186 6

原创 Logistic 回归—网格搜索最优参数笔记

1、准备# 首先 import 必要的模块import pandas as pd import numpy as npfrom sklearn.model_selection import GridSearchCV#竞赛的评价指标为loglossfrom sklearn.metrics import log_loss from matplotlib import pypl...

2018-12-16 09:47:46 12292 1

原创 人工智能—线性回归模型笔记

1、准备阶段import pandas as pd%matplotlib inlinedata = pd.read_csv("boston_housing.csv")data.head()data.isnull().sum()# 从原始数据中分离输入特征x和输出yy = data['MEDV'].values# 默认删除行,列需要加axis = 1X = data.dro...

2018-12-12 09:29:58 5967

原创 人工智能—数据探索操作笔记

1、读取数据import pandas as pddata = pd.read_csv("boston_housing.csv")#获取前五条数据data.head() # 数据基本信息data.info() # 查看是否有空值data.isnull().sum() # 各属性的统计特性data.describe()2、单变量分析import matplotlib...

2018-12-11 16:05:00 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除