自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 11.集成学习和随机森林

Soft Voting投票时有权值,更合理。Bagging and Pasting:放回取样:Bagging(也叫bootstrap)不放回取样:Pasting使模型产生差异化:针对特征进行随机采样:Random Subspaces既针对样本数量,又针对特征进行随机采样: Random Patches使用决策树进行集成学习的方式也叫随机森林。...

2018-08-14 00:51:42 219

原创 10.决策树

熵越大,数据的不确定性越高;熵越小,数据的不确定性越低。在每一个结点上,都希望在某一个维度上基于某一个阈值进行划分,让数据划分成两部分后,系统整体的信息熵降低(也就是让系统变的更加确定)。基尼系数:基尼系数的意义和信息熵相同。二分类基尼系数函数:CART :Classification And Regression Tree决策树中的超参数:...

2018-08-13 00:25:57 350

原创 9.支撑向量机-SVM

SVM要最大化margin,而margin=2d,所以问题转化为最大化d.SVM算法最终的最优化问题:s.t. 表示subject to,它后面的式子表示约束条件。这个最优化问题是Hard Margin SVM问题,它假设数据是线性可分的。Soft Margin SVM:核函数:变化后的项中有一部分是xi*xj,也就是对于任意两个样本点的x值点乘。在多项式求解的...

2018-08-11 23:42:43 183

原创 8.评价分类算法

混淆矩阵 Confusion Matrix:例如预测10000个人是否患病。其中0代表不患病,1代表患病。下图表示有9978个人没有患病,算法也预测他们没有患病;               有12个人没有患病,但算法预测他们患病;               有2个人患病,但算法预测他们没有患病;               有8个人患病,算法也预测他们患病;精准...

2018-08-11 19:09:16 773

原创 7.逻辑回归

逻辑回归:解决分类问题对于线性回归来说,我们得到一个函数f,将样本x输入f后,得到的值y就是要预测的值。 而对于逻辑回归来说,我们要得到一个函数f,将样本x输入f后,f会计算出y一个概率值p,之后我们使用这个概率值p来进行分类,如果p>=0.5,也就是有百分之50以上的概率发生的话,我们就让这个概率的值为1,否则让它为0,当然1和0在不同的场景下代表不同的意思。线性回归计算出来的...

2018-08-10 22:36:12 224

原创 6.多项式回归与模型泛化

多项式回归:欠拟合与过拟合:欠拟合:算法所训练的模型不能完整表述数据关系 。 过拟合:算法所训练的模型过多的表达了数据间的噪音关系。验证数据集:交叉验证: 偏差方差平衡:偏差:方差:模型正则化: 弹性网 Elastic NET:...

2018-08-10 12:11:34 202

原创 5.主成分分析法-PCA

用方差来定义样本间的距离(方差:描述样本整体之间的疏密的一个指标,方差越大,代表样本之间越稀疏,方差越小,代表样本之间越紧密)。1.主成分分析法的两个轴都是特征,线性回归y轴是目标结果值2.主成分分析法的点是垂直于方差轴直线的,线性回归的点事垂直于x轴的 使用梯度上升法解决PCA问题:经推导,f的梯度化简为:  ...

2018-08-08 15:36:07 383

原创 4.梯度下降法

 多元线性回归中的梯度下降法 上面推导出的式子的大小是和样本数有关的,m越大,结果越大,这是不合理的,我们希望和m无关。 梯度的向量化:由于数据的规模在不同的特征上不同,所以我们需要对数据进行归一化: 梯度下降法的调试:在进行机器学习之前先验证所求梯度的正确性。...

2018-08-07 10:47:33 165

原创 3.多元线性回归

 多元线性回归的正规方程解:缺点是时间复杂度较高,优点是不需要对数据做归一化处理。

2018-08-05 17:57:16 285

原创 1.kNN算法

import numpy as npfrom math import sqrtfrom collections import Counterdef kNN_classify(k, X_train, y_train, x): assert 1 <= k <= X_train.shape[0], "k must be valid" assert X_train....

2018-08-05 17:49:07 124

原创 2.简单线性回归

 衡量线性回归的指标: 最好的衡量线性回归法的指标 R Squared:可能预测房源准确度,RMSE或者MAE的值为5,预测学生的分数结果的误差是10,因为5和10对应不同的单位和量纲,无法比较。scikit-learn中的LinearRegression中的score方法返回r2_score...

2018-08-05 16:37:30 124

原创 JSP基础

page指令:Page指令为容器提供当前页面的使用说明。一个JSP页面可以包含多个page指令。语法:<%@ page attribute1="value1" attribute2="value2" %>注意@后有空格。JSP注释:html的注释:<!--html的注释--!>            (客户端可见)        JSP的注释:<%--html的注释-...

2018-07-16 12:17:50 117

原创 requests+正则表达式爬猫眼电影TOP100

爬取下来的Html中发现有提示:很抱歉,您的访问被禁止了。需要伪装成浏览器,在headers中添加’User-Agent’字典:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100...

2018-05-12 16:46:28 451 1

原创 Javascript DOM事件、EventListener和DOM 元素(节点)

DOM事件:<button type="button" onclick="document.getElementById('id1').style.color='red'">点我!</button>//要始终为 <button> 元素规定 type 属性。不同的浏览器对 <button> 元素的 type 属性使用不同的默认值。如button,sub...

2018-05-01 00:23:55 1248

原创 JavaScript基础

通过 id 查找 HTML 元素 :  var x=document.getElementById("intro");通过标签名查找 HTML 元素 :var x=document.getElementById("main");var y=x.getElementsByTagName("p");通过类名找到 HTML 元素:var x=document.getElementsByClassName...

2018-04-30 20:53:43 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除