机器学习笔记
文章平均质量分 73
BenkoZhao
努力、探索、学生党
初探python
展开
-
机器学习学习笔记 第十九章 聚类算法-K-MEANS
聚类算法聚类的概念:主要用来处理无监督问题,因为我们手上没有标签了,靠电脑自己进行分类聚类是指把相似的东西分到一组难点如何评估呢(因为没有了标签,难以对比正确与否,很多评估方法失效了)如何调参呢K-MEANS的概念K是指要得到的簇的数量,如下图所示应该要得到三个簇,K值需要我们自己指定质心其实是均值,如上图中的小红点,取向量各位的平均值距离的度量常常使...原创 2018-10-12 09:29:38 · 395 阅读 · 0 评论 -
机器学习学习笔记 第二十章 聚类算法-DBSCAN
聚类算法-DBSCANDensity-Based Spatial Clustering of Applications with Noise基本概念:核心对象:若某个点的密度达到算法设定的阈值则其为核心点。相当于在r的邻域内点的数量不小于我们设定的阈值ϵ-邻域的距离阈值是我们设定的半径r直接密度可达:若某点p在点q的 r 邻域内,且q是核心点则p-q直接密度可达。密度可达:若...原创 2018-10-12 17:20:18 · 597 阅读 · 0 评论 -
机器学习学习笔记 第十五章 贝叶斯算法
贝叶斯算法贝叶斯要解决的问题正向概率逆向概率举例:一个班级中,男生 60%,女生 40%,男生总是穿长裤,女生则一半穿长裤一半穿裙子正向概率:随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多逆向概率:迎面走来一个穿长裤的学生,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别,你能够推断出他(她)是女生的概率是多大吗?假设班级中总人数 U穿长裤的男生:U×P(B...原创 2018-10-06 17:41:11 · 537 阅读 · 0 评论 -
机器学习学习笔记 第十六章 基于贝叶斯的新闻分类
利用贝叶斯分类器进行文本分类考虑情况 1对于文本分析,首先我们应该先利用停用词语料库对部分大量出现的停用词进行屏蔽,可以百度直接搜停用词进行下载我们对于经常出现的词,有可能是一个不太重要的词,比如《中国蜜蜂养殖》,其中中国出现频率可能比蜜蜂和养殖都高,而我们应该弱化中国这个词的权重,这里我们引入词频(Term Frequency)和“逆文档频率”(Inverse Document Freq...原创 2018-10-06 18:02:06 · 737 阅读 · 3 评论 -
机器学习学习笔记 第十七章 支持向量机
支持向量机(Support Vector Machine)以前非常厉害的一个算法,不过后来遇到了对手——神经网络这个也是面试的时候经常会问到的非常重要的一个算法SVM要解决的问题:什么样的决策边界才是最好的,如下图中两堆点怎么区分不过这里不是要区分这两堆点,而是举个例子,后面会进行支持向量机的推导那么我们来讨论一下决策边界这两个图分别用不同的决策边界可见,第二个图...原创 2018-10-07 20:29:27 · 259 阅读 · 0 评论 -
机器学习学习笔记 第二十二章 主成分分析PCA算法
主成分分析(PCA)Principal Component Analysis用途:降维中最常用的一种手段目标:提取最有价值的信息(基于方差)问题:降维后数据有什么意义吗?描述PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析PC...原创 2018-10-14 17:53:02 · 453 阅读 · 0 评论 -
机器学习学习笔记 第十八章 SVM调参并观察
支持向量机(SVM)SVM调参%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltfrom scipy import statsimport seaborn as sns;sns.set()#先把可能或不一定用到的库全导进来from sklearn.datasets.samples_generat...原创 2018-10-09 15:20:57 · 632 阅读 · 0 评论