机器学习
CrazyBuLLo
进击的码农
展开
-
机器学习中的贝叶斯算法,实现拼写检查器
贝叶斯要解决的问题:正向概率:假设袋子里有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色后,那么我们可以就此对袋子里面的黑白球的比例作出怎样的推测贝叶斯实现拼写检查器求解:argmaxc P(c|w) -> argmaxc P(w|c)P© / P(w)P©,...原创 2019-03-12 22:46:21 · 257 阅读 · 0 评论 -
使用贝叶斯算法完成新闻分类任务
文本分析:新闻分类任务停用词(符号,字符都有):1.语料中大量出现 2.没啥作用Tf-idf:关键词提取《中国的蜜蜂养殖》:进行词频(Term Frequency,缩写为TF)统计出现次数最多的词是----“的” “是” “在”----这一类最常用的词(停用词)“中国” “蜜蜂” “养殖”这三个词出现的频率一样多,重要性一样?"中国"是很常见的词,相对而言,“蜜蜂”和“养殖”不那么常见...原创 2019-03-12 22:57:54 · 695 阅读 · 0 评论 -
聚类算法Kmeans
聚类算法Kmeans聚类概念:无监督问题:我们手里没有标签了聚类:相似的东西分到一组难点:如何评估,如何调参K-MEANS算法基本概念:要得到簇的个数,需要指定K值质心:均值,即向量各维取平均即可距离的度量:常用欧几里得距离和余弦相似度(先标准化)欧氏距离就是点到点的距离数据标准化是指当一组数据X浮动很小,另一组数据y浮动很大时,机器会认为X没什么作用,y的作用很大,这是就要对...原创 2019-03-24 21:25:58 · 446 阅读 · 0 评论 -
集成算法
xgboost(一棵树接着一棵树往里加,每加一棵都看效果)在完成机器学习任务时,用一个模型可能效果并不好,这样就可以用集成的思想,用多个分类器去解决同一个问题目标函数:预测值与真实值平方项的差异(越小越好)可以不断加树,但要保证每加入一棵树,效果很比以前好我们每一轮选取的一个f来使我们的目标函数尽量最大地降低Xgboost实战演示(Xgboost做分类任务)In[1]: import ...原创 2019-03-24 21:28:54 · 200 阅读 · 0 评论 -
DBSCAN聚类算法基本概念与例子
基本概念:(Density-Based Spatial Clustering of Applications with Noise)核心对象:若某个点的密度达到算法设定的阈值则其为核心点(即r领域内点的数量不小于minPts)领域的距离阈值:设定的半径r直接密度可达:若某点p在点q的r领域内,且q是核心点则p-q直接密度可达密度可达:若有一个点的序列q0,q1,…,qk,对任意qi-qi-...原创 2019-03-24 21:38:12 · 1929 阅读 · 0 评论 -
PCA降维
主成分分析(PCA)Principal Component AnalysisPCA与LDA不同,PCA是个无监督问题,拿到数据后不知道标签是什么,我们也能用PCA降维用途:降维中最常用的一种手段目标:提取最有价值的信息(基于方差)问题:降维后的数据的意义向量的表示以及基变换内积:(a1,a2,…,an)T.(b1,b2,…,bn)T = a1b1+a2b2+…+anbn解释:A·B...原创 2019-03-24 21:43:15 · 675 阅读 · 0 评论