机器学习
慢慢ss
努力总会得到最好的
展开
-
机器学习(K-NN)
一、K-NN算法的流程(1)计算已知类别数据集的点与当前点之间的距离(2)按照距离递增次序排列(3)选取与当前点距离最小的k个点欧式距离公式:(4)确定前k个点所在类别出现的频率(5)返回前k个点出现频率最高的类别作为当前点的预测分类二、R语言实现接口:class包 knn( )setwd("D:\\")wbcd <- read.csv("wisc_bc_data.c...原创 2019-06-08 12:14:40 · 231 阅读 · 0 评论 -
机器学习(朴素贝叶斯)
一、基于概率论的分类方法:朴素贝叶斯常用公式1.条件概率公式:其中P(AB)为联合概率,如果A、B相互独立P(AB)=P(A)P(B)2.贝叶斯公式:其中为似然函数最大似然估计(maximum likelihood estimation ,MLE):3.拉普拉斯平滑系数:目的:防止计算出的分类概率为0比如:二、朴素贝叶斯在文档分类中的应用...原创 2019-06-08 20:47:48 · 140 阅读 · 0 评论 -
机器学习(回归)
回归不是单一的算法:用于处理连续型的数据1.基本的线性回归(Basic Regression Model)2.广义的线性回归(GLM:Generalized Linear Model):所谓的广义的线性回归Z=WX+b,f(Z)=predict(y)f(Z)为连接函数一、线性回归线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值...原创 2019-04-21 14:25:43 · 882 阅读 · 0 评论 -
机器学习(xgboost)
一、XGBoost是使用梯度提升框架实现的高效、灵活、可移植的机器学习库,全称是eXtreme Gradient Boosting,是GBDT(GBM)的一个C++实现,它将树的生成并行完成,从而提高学习速度。二、XGBoost与GDBT的区别1.XGBoost生成CART树考虑了树的复杂度,GDBT未考虑,GDBT在树的剪枝步骤中考虑了树的复杂度。2. XGBoost是拟合上一轮损失函数的...原创 2019-06-19 16:39:06 · 887 阅读 · 2 评论 -
机器学习-one-hot 编码
https://blog.csdn.net/tengyuan93/article/details/78930285https://www.cnblogs.com/xyou/p/9197523.htmlhttps://blog.csdn.net/wxyangid/article/details/80209156https://blog.csdn.net/mvpboss1004/article/...原创 2019-06-19 17:56:01 · 399 阅读 · 0 评论 -
机器学习(数据集准备)
一、数据集的划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效划分比例:训练集:70% 80% 75%测试集:30% 20% 30%sklearn.model_selection.train_test_split(arrays, *options)x 数据集的特征值y 数据集的标签值test_size 测试集的...原创 2019-06-10 14:33:43 · 1310 阅读 · 0 评论