机器学习
leon东
Stay hungry
Stay foolish
展开
-
聚类算法
聚类:分类算法回归算法属于监督学习非监督学习(无监督学习)数据集合:没有目标值聚类算法:特征值根据样本的相似度,把样本聚成簇使用不同的聚类准则(相似度指标),产生的聚类结果不同。应用:用户画像图像分割(图像的RDB三元素不同来对图像进行聚类)聚类算法api初步使用:kmeans算法 k平均聚类算法sklearn.cluster.KMeans(n_clusters=8)...原创 2019-12-03 15:49:46 · 518 阅读 · 0 评论 -
集成学习
集成学习:一种思想,指导着一套算法的学习弱学习器 60%强学习器 99%多个弱学习器组合在一起,最终达到比单独一个强学习器还要好的效果一个算法 80%boosting: 弱弱增强,解决欠拟合的问题bagging: 每一个模型都容易过拟合,相互遏制,稳定性变强(robust),泛化能力增强3个 分类结果建立几个模型来解决单一预测问题这些预测最后结合成组合预测,因此优于...原创 2019-12-03 15:49:12 · 163 阅读 · 0 评论 -
决策树
决策树算法:分类算法: 目标值 离散型特征值:离散型[如这里的字符串类型的特征值] 将特征值为离散型的数值转化为数值型‘1st’‘2nd’‘3rd’在pandas里面数据离散化采用:one-hot编码####决策树算法去关心的两个问题:1 结果(目标值)纯度问题2 如何选择最优划分指标 --> 让我们结果尽可能的简单纯粹纯度 :{...原创 2019-11-25 21:51:39 · 214 阅读 · 0 评论 -
Linear_Regression
线性回归+逻辑回归:算法学习的方式:名字算法类型白话原理api具体数学推理线性回归回归算法目标值是连续的2.1 线性回归简介回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模y = w1x1 + w2x2 + w3x3 + b非线性关系插值法:(纯数学解决方法,无意义,因为不具有泛化性)2.2 线性回归api初步使用sklearn...原创 2019-11-16 20:00:34 · 206 阅读 · 0 评论 -
Naive_Bayes
朴素贝叶斯概念直观理解:验证每一个类别中,样本特征的分布情况,根据新样本中特征的分布情况预测属于每一个类别的概率,输出概率最大的类别,我们就认为这个样本属于这个类别。案列:早起咱们的Yahoo做垃圾邮件的分类,就使用的是咱们的朴素贝叶斯几个比较常见的概率基础知识:条件概率是指事件A在事件B发生的条件下发生的概率P(A∣B)=P(AB)P(B)P(A | B)=\frac{P(A B)...原创 2019-11-13 15:57:07 · 152 阅读 · 0 评论 -
KNN算法总结
K-近邻算法【总体】 分类算法: 有目标值,离散型一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。k:(本身取值对算法有影响,又不能通过算法训练确定值的变量叫做超参数)距离:scikit-learn:机器学习工具k近邻的sklearn的实现:sklearn.neighbors.KNeighborsClass...原创 2019-11-05 10:38:26 · 464 阅读 · 0 评论