机器学习
君子慎独_诚意
一体化网络、网络安全
展开
-
scikit-learn 集成学习ensemble methods参数使用总结
sklearn.ensemble模块里面包含的集成学习方法可以用于分类、回归以及异常检测ensemble.AdaBoostClassfierensemble.AdaBoostRegressorAdaBoost重要参数包括两部分:一个是对AdaBoost框架进行调参,一个是对弱分类器进行调参AdaBoost框架参数base_estimator:基学习器,默认是决策树algor...原创 2019-03-06 17:21:02 · 1108 阅读 · 0 评论 -
机器学习:GBDT,RF,XGBoost学习总结
除了svm,其他几个都属于集成学习的,所以在这之前,先了解下集成学习。https://blog.csdn.net/qq_28031525/article/details/70207918集成学习:ensemble learning:构建并结合多个学习器来完成学习任务。对于个体学习器的要求:”好而不同“,即个体学习器要有一定的准确性,并且还要有多样性,即学习器之间要有差异性----“...原创 2019-03-06 12:58:21 · 521 阅读 · 0 评论 -
聚类算法总结
k-means算法步骤输入:聚类簇数k,样本集合D输出:簇划分C={C1,C2,...,Ck} 1.选取k个样本作为初始的均值向量; 2.计算每个数据点到均值向量的距离,数据点距离那个均值向量近,就划分到哪一个类别中; 3.计算每个类别的均值向量(中心点),判断与上一次的是否有变化,有则更新; 4.重复上述步骤,直到每一个类...原创 2019-02-25 17:02:43 · 852 阅读 · 0 评论 -
hyper graph 超图
hyper graph 的基础概念 超图数据模型hypergraph data model (HDM)是知识图的基础(GRAKN.AI)概念(notations):超图由非空的顶点集和超边集组成(a hypergraph consists of a non-empty set of vertices and a set of hyperedges) 超边是一组有限的顶点集合(通过...原创 2018-09-28 20:59:46 · 7742 阅读 · 0 评论 -
模型评估与选择--交叉验证学习和 scikit-learn交叉验证
交叉验证:重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。交叉验证用在数据不是很充足的时候。交叉验证的作用交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合 可以从有限的数据中获取尽可能多的有效信交叉验证常见形式简单交叉验证:随机的将样本数据分为两部分(比如: 70%...原创 2018-09-10 16:01:55 · 925 阅读 · 0 评论 -
分类算法学习-sklearn.naive_bayes 贝叶斯学习
sklearn.naive_bayes模块有三个方法事先贝叶斯算法,分别是GaussianNB(以高斯分布为先验概率),MultinomialNB(先验概率为多项式分布)和BernoulliNB(先验概率为伯努利分布)sklearn.naive_bayes.BernoulliNB 参数: sklearn.naive_bayes.MultinomialNB适合离...原创 2018-09-10 11:08:42 · 924 阅读 · 0 评论 -
分类算法系列--近邻scikit-learn库学习
sklearn.neighbors模块里面实现了knn的几种近邻算法,具体如下:分类树:KNeighborsClassifier回归树KNeighborsRegression 参考博客:https://www.cnblogs.com/pinard/p/6065607.html...原创 2018-09-12 22:16:14 · 187 阅读 · 0 评论 -
分类算法系列--贝叶斯分类算法学习
贝叶斯分类算法是一类算法的总称,一类以概率论为基础的分类算法,常应用于文本分类,垃圾分类。朴素贝叶斯Naive Bayes贝叶斯公式:p(Y):先验概率,每种类别分布的概率p(X|Y),类条件概率,表示在某种类别的前提下,某事发生的概率p(Y|X):后验概率,表示某事发生了,并且它属于某一类别的概率,根据后验概率,可以对样本进行分类----值越大,属于某类的可能性就越大。...原创 2018-09-10 10:36:24 · 266 阅读 · 0 评论 -
scikit-learn 学习谱聚类SpectralClustering
谱聚类可看作是一种降维的方法。class sklearn.cluster.SpectralClustering()参数: n_clusters:切图时降到的维数affinity:相似矩阵的建立方式。'nearest_neighbors':k-近邻,'precomputed':自定义,全连接方式,常用高斯核'rbf',多项式'poly',sigmoid函数'sigmoid' ei...原创 2018-09-06 17:09:07 · 6266 阅读 · 1 评论 -
聚类算法系列--sklearn DBSCAN学习
class sklearn.cluster.DBSCAN()参数:eps:-邻域阈值,样本距离超过ϵ的样本点不在ϵ-邻域内。min_samples:The number of samples (or total weight) in a neighborhood for a point to be considered as a core point. This includes...原创 2018-09-09 20:08:25 · 1593 阅读 · 0 评论 -
聚类算法系列---DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Application with Noise)思想:用一个点的邻域内的邻居点数来衡量该店所在的空间密度,根据密度来判定将样本划分到哪个簇,对于同一个簇里面的样本是紧密相连的。在进行聚类的时候事先不知道cluster的数目。基本概念设数据集X={x1,x2,....,xn}Eps:定义密度时的邻域半径...原创 2018-09-09 19:25:10 · 506 阅读 · 0 评论 -
聚类算法系列--聚类的性能评估Clustering performance evaluation
博客:https://blog.csdn.net/sinat_33363493/article/details/52496011, https://www.jianshu.com/p/b5996bf06bd6, https://blog.csdn.net/u013709270/article/details/74276533论文:Liu Y, L...原创 2018-09-08 23:54:28 · 3925 阅读 · 0 评论 -
分类算法系列--近邻(Nearest Neighbors)
近邻算法可以分为无监督的近邻算法和监督近邻算法。无监督的近邻算法是很多学习方法的基础:流形学习,谱聚类算法。监督近邻方法可以分为:分类的近邻算法(针对离散的数据集)和回归的近邻算法(连续值的数据集)分类近邻算法多采用多数表决法,在训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。 回归近邻算法选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。近邻算法...原创 2018-09-12 21:03:42 · 2276 阅读 · 0 评论 -
聚类算法--层次聚类 Hierarchical clustering学习
对于传统的k-means算法,需要手动指定分类的数目k和初始化质心,这两个值的指定对于聚类结果是有很大的影响的。维基:https://en.wikipedia.org/wiki/Hierarchical_clustering博客:https://blog.csdn.net/u012500237/article/details/65437525 Hierarchical clusteri...原创 2018-09-08 20:28:23 · 3143 阅读 · 0 评论 -
机器学习:模型评估与优化
Real-World Machine Learning: Model Evaluation and Optimization地址:https://livebook.manning.com/#!/book/real-world-machine-learning/chapter-4/9本文主要是对书上的重要内容进行了提炼翻译笔记,供日后的学习。主要内容包括:利用交叉验证来评估模型的...原创 2019-03-07 13:10:30 · 1941 阅读 · 1 评论