自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 决策树

上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始,讨论输入属性有一个和多个的情形,接着通过广义线性模型延伸开来,将预测连续值的回归问题转化为分类问题,从而引入了对数几率回归,最后线性判别分析LDA将样本点进行投影,多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。本篇将讨论另一种被广泛使用的分类算法–决策树(Decision Tree)。#4、决策树##4.1 决策树基本概...

2019-05-23 19:25:14 152

原创 第五次作业

首先尝试了以下代码进行stacking模型融合,该代码是没有用第三方库,程序也比较老,有一些接口已经改变,在测试后后已经不能够运行,自己尝试修正,没有成功。# coding=utf8from sklearn import datasetsfrom sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier, G...

2019-04-15 21:50:49 203

原创 第五次作业

1 LightGBM原理1.1 GBDT和 LightGBM对比​ GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT 在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT 也是各种数据挖掘竞赛的致命武器,据统计 Ka...

2019-04-13 21:31:25 316

原创 第四次任务

第四次任务逻辑回归我们已经知道,普通的logistic回归只能针对二分类(Binary Classification)问题,要想实现多个类别的分类,我们必须要改进logistic回归,让其适应多分类问题。关于这种改进,有两种方式可以做到。第一种方式是直接根据每个类别,都建立一个二分类器,带有这个类别的样本标记为1,带有其他类别的样本标记为0。假如我们有个类别,最后我们就得到了个针对不同标记...

2019-04-11 22:22:26 230

原创 第三次作业

word2vec是什么word2vec(word to vector)是一个将单词转换成向量形式的工具。word2vec有什么用word2vec适合用作序列数据的分类,聚类和相似度计算。有用作app下载推荐系统中的,也有用在推荐系统和广告系统上的,也可以用在机器人对话类别判决系统上。音乐推荐系统基本思想是,现有的算法推荐音乐时,虽然现在的推荐系统要比以前好,但是总是不能让人满意;这里的核...

2019-04-09 21:33:49 138

原创 第二次任务

一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是...

2019-04-06 21:47:50 253

原创 第一次作业

第一天下载数据,读取数据,观察数据下载数据,读取数据,观察数据文件太大,这里选取前1000行没有null值,不需要填充去掉无意义“id”列K折交叉验证:sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作...

2019-04-05 20:38:37 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除