机器学习
文章平均质量分 94
欢迎前往我的GitHub查阅:https://github.com/HuangQinJian/Machine-Learning
qinjianhuang
努力学习!
展开
-
Scikit中的特征选择,XGboost进行回归预测,模型优化的实战
前天偶然在一个网站上看到一个数据分析的比赛(sofasofa),自己虽然学习一些关于机器学习的内容,但是并没有在比赛中实践过,于是我带着一种好奇心参加了这次比赛。 赛题:足球运动员身价估计 比赛概述 本比赛为个人练习赛,主要针对于于数据新人进行自我练习、自我提高,与大家切磋。 练习赛时限:2018-03-05 至 2020-03-05 任务类...原创 2018-03-24 13:12:45 · 108747 阅读 · 34 评论 -
Pandas使用DataFrame进行数据分析比赛进阶之路(一)
这篇文章中使用的数据集是一个足球球员各项技能及其身价的csv表,包含了60多个字段。数据集下载链接:数据集1、DataFrame.info()这个函数可以输出读入表格的一些具体信息。这对于加快数据预处理非常有帮助。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('dataset/soccer...原创 2018-03-25 13:31:12 · 5986 阅读 · 1 评论 -
XGboost数据比赛实战之调参篇(完整流程)
这一篇博客的内容是在上一篇博客Scikit中的特征选择,XGboost进行回归预测,模型优化的实战的基础上进行调参优化的,所以在阅读本篇博客之前,请先移步看一下上一篇文章。我前面所做的工作基本都是关于特征选择的,这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容,基本是翻译自一篇英文的博客,更坑的是很多文章步骤讲的不完整,新人看了很容易一头雾水。由于本人也是一个原创 2018-03-26 17:50:01 · 37641 阅读 · 15 评论 -
BAT机器学习面试1000题系列
几点声明:1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列;2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正;3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有不当,还请指正。(也已用斜体标出)4、部分答案由于完全是摘抄自其它的博客,所以本人就只贴出答案链接,这样既可以节省版面,也可以使排版更加美观。点击对应的问题即可跳转。原创 2017-12-14 15:19:15 · 184542 阅读 · 30 评论 -
Python3读取深度学习CIFAR-10数据集出现的若干问题解决
今天在看网上的视频学习深度学习的时候,用到了CIFAR-10数据集。当我兴高采烈的运行代码时,却发现了一些错误。原创 2017-11-10 19:40:55 · 12512 阅读 · 27 评论 -
机器学习中数据处理与可视化的python、numpy等常用函数
机器学习中数据处理与可视化的numpy常用函数原创 2017-11-19 14:31:31 · 1369 阅读 · 0 评论 -
交叉熵代价函数定义及其求导推导(读书笔记)
交叉熵代价函数原创 2017-11-24 21:07:10 · 4090 阅读 · 0 评论 -
吴恩达深度学习课程笔记之卷积神经网络基本操作详解
卷积层CNN中卷积层的作用:CNN中的卷积层,在很多网络结构中会用conv来表示,也就是convolution的缩写。卷积层在CNN中扮演着很重要的角色——特征的抽象和提取,这也是CNN区别于传统的ANN或SVM的重要不同。对于图片而言,图片是一个二维度的数据,我们怎样才能通过学习图片正确的模式来对于一张图片有正确的对于图片分类呢?这个时候,有人就提出了一个观点,我们可以这样,对于所有的像素,全部都原创 2017-12-08 17:12:39 · 4867 阅读 · 4 评论 -
机器学习之从极大似然估计到最大熵原理以及EM算法详解
机器学习之从极大似然估计到最大熵原理以及EM算法详解原创 2017-12-12 13:50:20 · 7961 阅读 · 0 评论 -
机器学习之拉格朗日乘数法
在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。此方法的证明牵涉到偏微分,全微分或原创 2016-11-19 18:39:08 · 6593 阅读 · 0 评论 -
机器学习之Validation(验证,模型选择)
对于机器学习的模型选择来说,即使只是对于二元分类,我们已经学习了很多方法,比如PLA,LR等;很多学习算法都是可迭代的,需要决定迭代次数;你可能还需要决定每一次迭代走多大,例如梯度下降;或者有很多的转换可以选择,例如线性、二次等;同时规则化又有很多的选择L1,L2;再来规则化到底要加多强的λ\lambda。况且这些选择是组合起来的,某种程度上来说是组合爆炸的,那么我们怎么做出正确的选择? 那么对原创 2017-02-08 10:59:57 · 11427 阅读 · 0 评论 -
机器学习之Logistic回归(逻辑蒂斯回归)
Logistic回归又称Logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率。原创 2017-02-05 17:38:14 · 19661 阅读 · 0 评论 -
机器学习之决策树(Decision Tree)及其Python代码实现
决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。原创 2017-02-10 17:55:17 · 32367 阅读 · 2 评论 -
机器学习之初识SVM
本文转载自知乎问题 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和转载 2017-02-11 14:34:55 · 4557 阅读 · 7 评论 -
机器学习之深入理解SVM
在浏览本篇博客之前,最好先查看一下我写的另一篇文章机器学习之初识SVM,这样可以更好地为了结一下内容做铺垫!原创 2017-02-11 18:21:37 · 24290 阅读 · 9 评论 -
机器学习之深入理解K-means、与KNN算法区别及其代码实现
K-means方法是一种非监督学习的算法,它解决的是聚类问题。原创 2017-02-14 09:07:44 · 47582 阅读 · 5 评论 -
机器学习之深入理解神经网络理论基础、BP算法及其Python实现
人工神经网络(Artificial Neural Networks,ANN)系统是 20 世纪 40 年代后出现的。它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信 息存储、良好的自组织自学习能力等特点。原创 2017-02-16 09:25:11 · 14244 阅读 · 0 评论