![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Miss ❥ Ma
这个作者很懒,什么都没留下…
展开
-
决策树_基本概念
衡量标准-熵(P):表示随机变量的不确定性的度量(物体内部的混乱程度) P=0.5不确定性最大 P=1或者P=0 完全没有不确定性* 熵计算公式 H(x) = -∑p(xi)log(2,p(xi)) (i=1,2,..n)* 栗子1 义乌杂货市场商品很多很混乱熵值会比较大* 栗子2 苹果专卖店只有苹果品牌比较稳定,熵值很小信息增益:表示特征X使得类Y的不确定减少的程度...原创 2018-09-05 15:06:52 · 308 阅读 · 0 评论 -
caffe_将caffe net框架生成图片的形式
sudo python /home/marry/caffe/python/draw_net.py /home/marry/caffe/examples/mnist/A_my_lenet.prototxt /home/marry/caffe/examples/mnist/lenet.jpg原创 2018-09-27 19:20:26 · 163 阅读 · 0 评论 -
Linux _caffe_CPU安装过程中遇到的坑
Linux caffeCXX/LD -o .build_release/tools/upgrade_net_proto_binary.bin.build_release/lib/libcaffe.so: undefined reference to cv::imread(cv::String const&, int)' .build_release/lib/libcaffe....原创 2018-09-27 09:29:48 · 993 阅读 · 0 评论 -
聚类常见算法K-means & DBSCAN
一.K-means Clustering1.读取数据import pandas as pdbeer = pd.read_csv('data.txt', sep=' ')beer 2.只取有用的四列数据X = beer[["calories","sodium","alcohol","cost"]]X.head() 3.使用Kmeans对X进行分类from skl...原创 2018-09-10 20:30:24 · 611 阅读 · 0 评论 -
DBSCAN聚类算法
主要作用:离群点 异常点的检测1.核心对象:若某个点的密度达到算法设定的阈值则其为核心点。 (即 r 邻域内点的数量不小于 minPts)2.直接密度可达:若某点p在点q的 r 邻域内,且q是核心点则p-q直接密度可达3.密度可达:若有一个点的序列q0、q1、…qk,对任意qi-qi-1是直接密度可达的 ,则称从q0到qk密度可达4.密度相连:若从某核心点p出发,点...原创 2018-09-10 18:40:42 · 358 阅读 · 0 评论 -
贝叶斯应用_文本分析_代码实践
一:停用词 语料中大量出现却没什么作用的词 二:词频(TF) 词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数 三:逆文档频率(IDF) 逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) ) 四:Tf-idf 关键词提取 Tf-idf=TF * IDF 五:相似度 对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量...原创 2018-09-07 02:01:56 · 497 阅读 · 0 评论 -
贝叶斯应用_文本分析_理论支持
一:停用词 语料中大量出现却没什么作用的词 二:词频(TF) 词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数 三:逆文档频率(IDF) 逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) ) 四:Tf-idf 关键词提取 Tf-idf=TF * IDF 五:相似度 对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量...原创 2018-09-07 00:00:20 · 164 阅读 · 0 评论 -
贝叶斯应用_拼写检查器
step1:导入相关库import re,collectionsstep2:将语料库中的数据全部转换为小写且去除其他字符def words(text): return re.findall('[a-zA-Z]+',text.lower()) #re.findall() 返回text中所有的大小写字母相匹配的全部字串 #'[a-zA-Z]+' 不分大小写字母的...原创 2018-09-06 19:59:34 · 196 阅读 · 0 评论 -
贝叶斯算法
一:计算公式二:推导过程某一学校60%是男生,40%是女生,男生基本都穿长裤,女生有一半穿长裤一般啊穿裙子 问题:迎面走来一穿长裤的学生,请问是女生的概率是多少 假设学校总人数为S 男生穿长裤的概率 P(pants|boys)=S*P(boys)*P(pants|boys) 女生穿长裤的概率 P(pants|girls)=S*P(girls)*P(pants|girls) ...原创 2018-09-06 17:56:29 · 469 阅读 · 0 评论 -
随机森林和集成算法
集成算法ensemble learning一:bagging bootstrap aggregation训练多个分类器求平均值 随机:每一树按照一定比例随机采样(有放回的采样),特征选择随机 优势:选择随机,保证很强的泛化能力 代表:如随机森林 森林:很多决策树并行求平均值 计算公式:二:boosting从弱学习器加强代表:AdaBoost 根据前一次的分类效果调整...原创 2018-09-06 15:43:06 · 326 阅读 · 0 评论 -
Logistic Regression 梯度下降求解
Logistic Regression目的:判断留学申请是否成功step1:read dataimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineimport ospath='data'+os.sep+'LogiReg_data.txt'pdData...原创 2018-09-03 19:20:13 · 438 阅读 · 0 评论 -
决策树_可视化_最佳参数选择
step1:导入相关库%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdstep2:使用sklearn datasets内置数据集(某一地区的房价数据)from sklearn.datasets.california_housing import fetch_california_housin...原创 2018-09-05 16:23:06 · 1228 阅读 · 0 评论 -
Decision Tree_决策树案列
寻找信息增益最大的索引导入需要的python库from math import log创建数据def creatData(): #ages: 0-young 1-middle-aged 2-older #work: 0-no 1-yes #house: 0-no 1-yes #loan_credit: 0-nomal 1-goo...原创 2018-10-26 14:12:16 · 175 阅读 · 0 评论