机器学习
dayL_W
热爱编程、热爱生活、热爱运动
展开
-
机器学习-导论
1、什么是机器学习机器学习不仅仅属于计算机这个方向,它是一个高度跨学科的研究方向,包括计算机视觉、生物学、机器人、自然语言、统计学等等。Arthur Samuel在1959年把它定义为:在不直接针对问题进行编程的情况下赋予计算机学习能力的一个研究领域。他当时自己写了一个国际象棋的游戏,它可以自己和自己下棋,并且下棋的速度非常快!它会慢慢的学习如何才能让自己赢得棋,这非常像阿尔法狗呀!原创 2017-09-25 20:34:59 · 423 阅读 · 0 评论 -
机器学习中的各种评价指标
1 分类分类器评价指标主要有:1,Accuracy2,Precision 3,Recall 4,F1 score 5,ROC 曲线6,AUC7,PR 曲线8,Log损失混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模...转载 2018-11-29 14:50:23 · 6936 阅读 · 0 评论 -
随机森林算法学习(RandomForest)
大部分的内容参考自https://blog.csdn.net/qq547276542/article/details/78304454随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介...原创 2018-06-08 11:03:06 · 3347 阅读 · 0 评论 -
GBDT的要点总结
转自点击打开链接1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。 gbdt的面试考核点,大致有下面几个:gbdt 的算法的流程?...转载 2018-06-21 19:00:01 · 980 阅读 · 0 评论 -
scikit-learn 梯度提升树(GBDT)调参小结
转自http://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifier...转载 2018-06-21 18:57:50 · 283 阅读 · 0 评论 -
梯度提升决策树GBDT
转自https://blog.csdn.net/google19890102/article/details/51746402/梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是近年来被提及比较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越表现,有很多人对GBDT算法进行了开源代码的开发,比较火的是陈天奇的XG...转载 2018-06-21 18:56:28 · 329 阅读 · 0 评论 -
机器学习中的五种回归模型及其优缺点
转自https://blog.csdn.net/Katherine_hsr/article/details/79942260好像有部分公式不能显示,请查看原博客本文将会介绍五种常见的回归模型的概念及其优缺点,包括线性回归(Linear Regression), 多项式回归(Ploynomial Regression), 岭回归(Ridge Regression),Lasso回归和弹性回归网络(El...转载 2018-05-30 23:05:26 · 46902 阅读 · 0 评论 -
天池-IJCAI2018-比赛总结
1 数据预处理有10几个重复的数据样本,去重Id、性别、年龄的缺失值填充的是-1,可以填充为nan(树模型可以处理)对时间戳做处理,得到日期和时间2 特征工程2.1 基础特征基础特征简要介绍下,主要获取用户、商品、店铺的特征,比如用户性别、年龄、职业、星级编号,商品类目、品牌、城市、价格等级、展示次数、搜藏次数等级,店铺评价数量等级、好评数量等级、服务态度评分等等另外一些组合特征,比如用户当次搜索...原创 2018-06-13 15:59:12 · 1073 阅读 · 5 评论 -
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结
github源代码赛题地址数据地址README==============## 1 问题描述<br> 这个比赛的任务是预测妊娠期妇女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病。一共有1000条训练样本,85维特征。线上测试样本为200条,采用F1值来评价结果好坏。由于样本较少所以很容易出现过拟合问题。在85维特征中,有30个是身体指标特征,诸如年龄、身高、体重、...原创 2018-06-13 13:38:39 · 6683 阅读 · 2 评论 -
数据挖掘(机器学习)面试--SVM面试常考问题
转自https://blog.csdn.net/szlcw1/article/details/52259668应聘数据挖掘工程师或机器学习工程师,面试官经常会考量面试者对SVM的理解。以下是我自己在准备面试过程中,基于个人理解,总结的一些SVM面试常考问题(想到会再更新),如有错漏,请批评指正。(大神请忽视)转载请注明出处:blog.csdn.net/szlcw1SVM的原理是什么?SVM是一种二...转载 2018-06-05 11:48:01 · 1029 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
转自https://blog.csdn.net/v_july_v/article/details/7624837这篇文章写的真好,转载一下,如果有些地方无法显示请参考原文作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月。声明:本文于2012年便早已附上所有参考链接,并...转载 2018-06-05 11:45:45 · 357 阅读 · 0 评论 -
DBSCAN介绍
一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义:Ε邻域:给...转载 2018-05-25 16:00:54 · 6536 阅读 · 0 评论 -
K-means简要介绍
一、简介聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。二、概述基本K-Means算法的思想很简单,事先确定常数K,常数K意味着最终的聚类类...原创 2018-05-18 11:58:12 · 5200 阅读 · 0 评论 -
KNN算法简述
本文摘自:https://blog.csdn.net/lx85416281/article/details/406568771、KNN概念描述kNN算法又称为k最近邻(k-nearest neighbor classification)分类算法。所谓的k最近邻,就是指最接近的k个邻居(数据),即每个样本都可以由它的K个邻居来表达。kNN算法的核心思想是,在一个含未知样本的空间,可以根据离这个样本最...转载 2018-05-18 10:42:50 · 5051 阅读 · 0 评论 -
天池-OppO-OGeek比赛总结
赛题资源题目链接数据链接我的代码这份代码是复赛的代码,写的比较规范些,也添加了一些注释。因为实在阿里云的平台上运行的,所有有些地方会报错,不能直接运行。最主要的问题应该是输入数据的路径不对,改成对应的路径即可。赛题描述及分析在搜索业务下有一个场景叫实时搜索(Instance Search),就是在用户不断输入过程中,实时返回查询结果。赛题的数据如下:字段 说明 ...原创 2018-12-09 23:24:39 · 2296 阅读 · 17 评论