![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
sorrythanku
这个作者很懒,什么都没留下…
展开
-
xgboost.fit函数
这个函数是使用scikit-learn接口与XGBRegressor或者XGBClassifier一起使用的,其效果是训练模型fit(X, y, sample_weight=None, eval_set=None, eval_metric=None, early_stopping_rounds=None, verbose=True, xgb_model=None, sample_weight_e...原创 2018-11-20 22:14:39 · 12227 阅读 · 2 评论 -
python中zip函数
1.函数原型:zip([seql, …])2.参数解释:iterabl – 一个或多个迭代器;3.函数解释:zip([seql, …])接受一系列可迭代对象作为参数,将对象中对应的元素打包成一个个tuple(元组),然后返回由这些tuples组成的list(列表)。若传入参数的长度不等,则返回list的长度和参数中长度最短的对象相同4.函数举例1.num_years = [2,4,...原创 2019-01-12 23:03:52 · 152 阅读 · 0 评论 -
day7
1.又前面直接导入数据预处理和特征工程的数据from sklearn.model_selection import GridSearchCV, KFold, train_test_splitimport pandas as pdimport numpy as npfrom sklearn.metrics import precision_score,roc_auc_scorefrom s...原创 2019-01-09 19:40:15 · 166 阅读 · 0 评论 -
python中resample函数实现重采样和降采样
函数原型resample(self, rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention=‘start’, kind=None, loffset=None, limit=None, base=0, on=None, level=None)比较关键的是rule,closed,label下面会随...原创 2019-04-11 15:32:52 · 38130 阅读 · 3 评论 -
散度
我们先来看看熵的定义:H(x)=-∑xP(x)logP(x)\displaystyle\sum_{x} P(x)logP(x)x∑P(x)logP(x)p(x)为随机变量x的概率分布密度,熵反应了系统的有序化程度,系统越是有序熵值越小,反之越大K-L散度(相对熵)表示方法:KL(p||q)表示的是使用P的编码方法和使用Q的编码方法的长度差异。或者这样理解:描述两个概率分布P和Q差异的一...原创 2019-04-02 23:28:45 · 2188 阅读 · 0 评论 -
房租赛-eda
读取文件import pandas as pdimport numpy as npimport lightgbm as lgbimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import KFoldfrom sklearn.metrics import r2_score...原创 2019-07-24 16:35:42 · 204 阅读 · 0 评论 -
房租赛-模型融合
import pandas as pdimport numpy as npimport lightgbm as lgbimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import KFoldfrom sklearn.metrics import r2_scoredef ...原创 2019-08-04 00:14:26 · 175 阅读 · 0 评论 -
房租赛-数据处理
import pandas as pdimport numpy as npimport lightgbm as lgbimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import KFoldfrom sklearn.metrics import r2_scoredef p...原创 2019-07-26 21:25:14 · 1094 阅读 · 4 评论 -
房租赛-模型测试
params = { 'num_leaves': 31, 'min_data_in_leaf': 20, 'min_child_samples':20, 'objective': 'regression', 'learning_rate': 0.01, "boosting": "gbdt", "feature_fraction": 0.8,...原创 2019-08-01 18:01:19 · 933 阅读 · 0 评论 -
day6
1.读取数据处理后的数据,分割数据from sklearn.model_selection import GridSearchCV, KFold, train_test_splitimport pandas as pdimport numpy as npfrom sklearn.metrics import precision_score,roc_auc_scorefrom sklear...原创 2019-01-07 20:03:22 · 236 阅读 · 0 评论 -
day5
1.读入数据from sklearn.model_selection import GridSearchCV, KFold, train_test_splitimport pandas as pdimport numpy as npfrom sklearn.metrics import precision_score,roc_auc_scorefrom sklearn.metrics i...原创 2019-01-04 18:46:06 · 136 阅读 · 0 评论 -
predict_proba和prdict的不同和适用
predict:返回的是一个大小为n的一维数组,一维数组中的第i个值为模型预测第i个预测样本的标签;predict_proba:返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率,此时每一行的和应该等于1。from sklearn.linear_model import LogisticRegression from sklearn.linear_m...原创 2018-12-11 23:24:21 · 2330 阅读 · 5 评论 -
从roc曲线到auc
1.为什么我们要用roc曲线进行评价用传统的识别率来评价模型的话会有下面的缺陷:在类不平衡的情况下,如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90%而如果正样本识别对75个,负样本识别对5个,得到的识别率为80%。但是这样的识别率评价指标导致高分模型不具有鲁棒性(即该模型在类别平衡下表现不好)所以我们要换一种评价指标就有了roc曲线2.那么roc曲线到底是...原创 2018-12-04 13:19:57 · 325 阅读 · 0 评论 -
分享一波我觉得很好的关于ml和dl的公众号
干货较多型:1.Paperweekly:重磅推荐,更新量很足都是目前前沿的ai论文以及解读,并且附有原文链接,省去了查找的麻烦2.AI研习社:里面会有很多基础性的python操作,会有常见的model的讲解3.AI有道:里面有干货资源,但是平时推文营养不怎么够了解拓展型:1.量子位2.AI前线...原创 2018-11-29 20:47:03 · 223 阅读 · 0 评论 -
xgboost.XGBClassifier参数
打*参数为重要XGBClassifier(1.silent=0#设置成1则没有运行信息输出,默认为0.是否在运行时打印消息2.*learning_rate=0.1#学习率,过大收敛不了,小了收敛慢3.*min_child_weight=1#叶子里面h的和,h就是二阶导不清楚的看看xgboost原理,该参数越小越容易过拟合4.*max_depth=6, # 构建树的深度,越大越容易过拟合,...原创 2018-11-27 23:15:06 · 3802 阅读 · 0 评论 -
LGBMClassifier参数
1.boosting_type=‘gbdt’# 提升树的类型 gbdt,dart,goss,rf2.num_leavel=32#树的最大叶子数,对比xgboost一般为2^(max_depth)3.max_depth=-1#最大树的深度4.learning_rate#学习率5.n_estimators=10: 拟合的树的棵树,相当于训练轮数6.subsample=1.0: 训练样本采样率...原创 2018-11-28 16:38:17 · 27492 阅读 · 0 评论 -
day1
import pandas as pddata_all=pd.read_csv(r'C:\Users\lxy\Desktop\input\data_all.csv')#对数据集37分from sklearn.model_selection import train_test_splitfeatures=[x for x in data_all.columns if x not in ['...原创 2018-12-09 00:32:33 · 202 阅读 · 0 评论 -
day3
导入包,并对数据集进行处理import pandas as pdfrom sklearn.metrics import precision_score,roc_auc_scorefrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_score#这个就可以用评分函数了from skle...原创 2018-12-13 00:26:49 · 329 阅读 · 0 评论 -
day4
网格搜索5折交叉验证对模型进行调参。大部分时间都在等待,就调的比较简单。1.数据37分from sklearn.model_selection import GridSearchCV, KFold, train_test_splitimport pandas as pdimport numpy as npfrom sklearn.metrics import precision_scor...原创 2018-12-15 00:11:29 · 175 阅读 · 0 评论 -
day2
读取数据集,并对数据集37分import pandas as pddata_all=pd.read_csv(r'C:\Users\lxy\Desktop\input\data_all.csv')from sklearn.model_selection import train_test_splitfeatures=[x for x in data_all.columns if x not ...原创 2018-12-10 23:31:48 · 135 阅读 · 0 评论 -
房租赛-特征
import pandas as pdimport numpy as npimport lightgbm as lgbimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import KFoldfrom sklearn.metrics import r2_scoredef...原创 2019-07-28 17:11:35 · 169 阅读 · 0 评论