机器学习
yealxxy
一直学习计算机,了解互联网发展趋势。
展开
-
特征选择
机器学习 特征选择原创 2017-09-22 22:22:29 · 710 阅读 · 0 评论 -
python数据内存形式-引用与对象的认识
这篇文章主要是对python中的数据进行认识,对于很多初学者来讲,其实数据的认识是最重要的,也是最容易出错的。本文结合数据与内存形态讲解python中的数据,内容包括:引用与对象可变数据类型与不可变数据类型引用传递与值传递深拷贝与浅拷贝(id函数:你可以通过python的内置函数 id() 来查看对象的身份(identity),这个所谓的身份其实就是 对象 的内存地址)一、引原创 2018-01-26 12:29:00 · 3205 阅读 · 2 评论 -
RF,GBDT,XGBoost,lightGBM的对比
RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。 根据基本学习器的生成方式,目前的集成学习方法大致分为两大类:即基本学习器之间存在强依赖关系、必须串行生成的序列化方法,以及基本学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者原创 2018-01-09 20:54:46 · 8576 阅读 · 4 评论 -
机器学习模型优化之模型融合
前言:在机器学习训练完模型之后我们要考虑模型的效率问题,常用的模型效率分析手段有:研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整;对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合;进行bad-case分析,对错误的例子分析是否还有什么可以修改挖掘模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应为...原创 2018-01-07 15:37:24 · 54847 阅读 · 9 评论 -
机器学习之特征工程
做了一段机器学的东西,一直对特征这块很模糊,有时候凭感觉在找特征,然后做一些简单的变换。这篇文章的目的是系统的讲解特征的获取过程,因为在机器学习的过程中,其实数据特征才是限制模型效果的东西,很重要。 特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块...原创 2018-01-02 17:09:41 · 3807 阅读 · 0 评论 -
sklearn中的交叉验证与参数选择
利用sklearn库中的交叉验证方法进行模型评估,参数选择,过拟合判断。原创 2017-12-26 10:02:41 · 28379 阅读 · 4 评论 -
sklearn超参数选择
sklearn中的超参数优化原创 2017-12-30 18:05:07 · 6064 阅读 · 2 评论 -
sklearn库的学习
sklearn入门,sklearn库结构原创 2017-12-24 15:14:43 · 177773 阅读 · 25 评论 -
机器学习模型训练测试完整步骤
机器学习模型训练测试完整步骤原创 2017-12-22 16:54:49 · 40329 阅读 · 2 评论 -
正则化防止过拟合
正则化为什么可以解决过拟合原创 2017-12-13 00:00:16 · 709 阅读 · 0 评论 -
过拟合以及正则化(L0,L1,L2范数)
过拟合 正则化原创 2017-09-26 11:29:44 · 2029 阅读 · 0 评论 -
机器学习项目开发过程(End-to-End Machine Learning Project)
引言:之前对于机器学习的认识停留在算法的分析上,这篇文章主要从项目开发的角度分析机器学习的应用。这篇文章主要解释实际项目过程中的大致方针,每一步涉及的技术不会介绍很细致。机器学习项目开发步骤如下: 1. Look at the big picture. 2. Get the data. 3. Discover and visualize the data to gain insights. ...原创 2018-06-15 00:02:51 · 2091 阅读 · 0 评论