机器学习
量化橙同学
好好记录就是对曾经的负责,是对生命的珍视,对价值的保护,对勤奋的肯定,对灵魂的忠诚!
展开
-
支持向量机通俗导论(理解SVM的三层境界)
原文链接在这里:http://blog.csdn.net/v_july_v/article/details/7624837转载 2018-03-06 22:11:34 · 399 阅读 · 0 评论 -
随机森林参数说明
1 框架参数:n_estimators : 指定随机森林中的分类器的个数,默认为10。一般来说n_estimators 太小容易欠拟合,太大计算量大,故需要参数调优选择一个适中的数值; oob_score: 是否采用袋外误差来评估模型,默认为 False;criterion :及CART树划分对特征的评价标准,默认我基尼指数,还可以选择信息增益;2决策树参数max_...原创 2018-12-27 02:48:37 · 19828 阅读 · 0 评论 -
tpot自动训练机器学习模型
tpot 自动训练模型包Consider TPOT your Data Science Assistant. TPOT is a Python Automated Machine Learning tool that optimizes machine learning pipelines using genetic programming.TPOT will automate t...原创 2018-12-10 12:00:46 · 1392 阅读 · 0 评论 -
机器学习模型评测:holdout cross-validation & k-fold cross-validation
cross-validation:从 holdout validation 到 k-fold validation2016年01月15日 11:06:00 Inside_Zhang 阅读数:4445版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lanchunhui/article/details/50522424构建机器学习模型的一个...转载 2018-12-10 11:33:11 · 5516 阅读 · 2 评论 -
机器学习:评价回归模型
在sklearn中包含四种评价尺度,分别为mean_squared_error、mean_absolute_error、explained_variance_score 和 r2_score。1、均方差(mean-squared-error)2、平均绝对值误差(mean_absolute_error)3.可释方差得分(explained_variance_score) ex...转载 2018-11-19 16:09:05 · 390 阅读 · 0 评论 -
kmeans+cnn教务系统验证码识别
在学生成绩管理的应用设计中经常会有需求场景,需要使用教务系统提供的服务,为了节约用户的时间,有时候会提供账号绑定的服务,即用户提供账号和密码,开发者登陆教务系统,获取其中的信息,这个时候就需要识别验证码的功能。首先第一步,获取验证码数据集从检查元素中,我们可以得知,二维码的链接为http://210.42.121.241/servlet/GenImg利用一个简单的爬虫小程序,我们就可以获得大量的二...原创 2018-06-17 17:21:19 · 1233 阅读 · 1 评论 -
选用误差函数为平方和的概率解释
假设根据特征的预测结果与实际结果有误差∈ (原创 2018-05-17 15:28:40 · 1180 阅读 · 1 评论 -
图像的上采样(upsampling)与下采样(subsampled)
转自:http://baike.baidu.com/view/3038019.htm和http://blog.sina.com.cn/s/blog_672c5a470100pmj6.html 缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(...转载 2018-04-11 12:09:58 · 676 阅读 · 0 评论 -
cost函数梯度求解证明
cost函数形式:简单回顾一下几个变量的含义:表1 cost函数解释x(i)每个样本数据点在某一个特征上的值,即特征向量x的某个值y(i)每个样本数据的所属类别标签m样本数据点的个数hθ(x)样本数据的概率密度函数,即某个数据属于1类(二分类问题)的概率J(θ)代价函数,估计样本属于某类的风险程度,越小代表越有可能属于这类 我们的目标是求出θ,使得这个代价函数J(θ)的值最小,这里就需要用到梯度下...原创 2018-03-31 12:09:08 · 2480 阅读 · 0 评论 -
最小二乘法最小二乘法在机器学习中的应用
以下内容转自:https://blog.csdn.net/code_lr/article/details/51382826参考http://www.cnblogs.com/armysheng/p/3422923.htmlhttp://blog.csdn.net/qll125596718/article/details/8248249一.背景 先看下百度百科的介绍:最小二乘法(又称最小平方法)是...转载 2018-04-07 14:15:07 · 3456 阅读 · 0 评论 -
机器学习基石笔记
第五讲比较难以理解,这里收集了几个还不错的链接,供大家选择:知乎:人工智能LeadAI 课程总结二Lee的白板报博客独孤九戒Paul-Huang红色de石头第六讲,纯数学的推理过程,推荐韬光养晦气的博客:韬光养晦...原创 2018-03-24 11:40:38 · 357 阅读 · 0 评论 -
Bias-Variance Tradeoff(权衡偏差与方差)
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了学习问题本省的难度。偏差-方差分解说明,泛化能力是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的,给定学习任务,为了取得好的泛化性能,需使偏差较小,即能够充分拟合数据,并使方差较小,使数据扰动产生的影响...原创 2018-03-05 20:45:50 · 648 阅读 · 0 评论 -
one hot 编码及数据归一化
http://blog.csdn.net/dulingtingzi/article/details/51374487转载 2018-03-04 21:54:54 · 778 阅读 · 0 评论 -
量化投资学习——时间序列分析中的模型稀疏性问题
在分析量化交易模型中,经常会遇到一类问题就是:在万的和其他的平台上能获取各种各样的基本面指标,情绪指标,各种指标,我们当然可以用单因子分析的方法流程来处理,但是还是有一个问题是掩饰不住的,就是指标很多很多,但是样本点很少很少,这个时候其实总体来说预测因子的数目 p 特别大,而样本数量 n 却很小,毕竟每年才 240 多天, 因此,这属于 p>>n 的问题,属于高维统计(high-dim...原创 2019-06-08 21:23:09 · 1320 阅读 · 0 评论