![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 69
dunzane
新手
展开
-
朴素贝叶斯法基本原理
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法【注意:朴素贝叶斯法与贝叶斯估计是不同的概念】,其是一种典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y∣X)。具体来说,利用训练数据学习P(X∣Y)和P(Y)P(X,Y)=P(Y)P(X∣Y)概率估计的方法可以是极大似然估计或贝叶斯估计。原创 2022-10-21 11:35:27 · 601 阅读 · 0 评论 -
第三章 KNN算法原理
k近邻法(K-nearest neighbor,knn)是一种基本分类与回归方法。简单、直观来说,其在给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这个k个实例的多数属于某个类就把该输入的实例分为这个类。因此,k近邻法不具有显式的学习过程。原创 2022-10-18 20:51:41 · 1276 阅读 · 0 评论 -
手推SVM
在感知机中,因为选取的模型参数初始值不同,以及迭代选取的变量顺序不同所以造成最后的求解超平面并不唯一,也就是结果有可能呈现出下面这样的情况:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6drYlpmW-1664968714489)(pic/pic02.png)]当然肯定不止这三条线,实际上可证明在感知机中这样的线应该有无数条。但是以图中3个超平面为例,最佳的超平面是哪一条呢?事实上,很多都会选择橙色的线条,因为如果我们按照图1的红色线条来移动(发生这种情况可能是因为误差原创 2022-10-05 19:23:09 · 1304 阅读 · 0 评论 -
机器学习基本常识
在这个例子中可以看到,随着多项式次数的增加训练误差会减小,直至趋于0,但是测试误差却不如此,他会随着多项式次数(模型的复杂度)的增加先减小,后增大。具体的说,所选择的模型要与“真”模型的参数相同,或者说所选择的参数向量与真模型的参数向量相近。如果给定的数据样本充足的情况下,进行模型的选择的一种简单方法是随机选择的将数据集切分成3部分,分别为数据集、测试集、验证集。在学习到的不同复杂度(参数个数不同)的模型中,选择对验证集有最小预测误差的模型。模型的泛化能力是指该方法学习的到的模型对于未知数据的预测能力。原创 2022-10-02 15:16:56 · 679 阅读 · 0 评论 -
使用gensim中的Word2Vec报错ValueError
2、针对训练出来的词向量的问题首先就是要明确的是训练的出来的词向量文件头部会有两个数字,其表示的是整个词表的大小和维度,所以需要保证你训练出来的词向量最开头一行保存整个词表的大小和维度,我就是因为输出的词向量文本中没有这一行,所以报错!原来的代码(主要是修改Word2Vec这一部分)更改后的代码(参数需要根据自己的需要)如果你有任何疑问欢迎一起交流:d_zhao_work@163.com............原创 2022-06-12 14:04:02 · 1016 阅读 · 0 评论 -
应用统计432考研复试提问总结精简版【二】
一、自由度是什么?定义:构成样本统计量的独立的样本观测值的数目解释:从书中所给的平均数的角度进行二、讲一下对t检验的理解?t检验适用于两个变量均数间的差异检验。同时用t检验的前提下:正态性和方差齐性。t检验是目前医学研究中使用频率最高,医学论文中最常见的处理定理资料的假设检验方法。三、如何判定结果具有真实的显著性?通常,许多科学领域中产生p值的结果<=0.05被认为是统计学意义的边界线,但是这显著性水平还是包含了相当高的犯错的可能性。可以根据实际需要来设定,针对高精度需要,可以要求小于原创 2022-04-05 15:57:15 · 3462 阅读 · 0 评论 -
机器学习之随机森林算法
随机森林是一种集成学习方法一、什么是集成学习方法?集成学习通过建立几个模型组合的方法来解决单一预测问题。他的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类作出的预测。二、什么是随机森林?在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如,如果你训练了5个树,其中有4个树的结果是True,1个树的结果为False,那么最终的投票结果就是True。三、随机森原理的过程两个随机(假设N个原创 2022-03-16 21:44:12 · 2190 阅读 · 0 评论 -
机器学习之决策树算法
1、认识决策树?决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,就是利用这类结构分割数据的一种分类学习方法。是帮助我们进行高效决策分析的一种方法。2、信息论基础(信息熵、信息增益)信息:消除随机不定性的东西(信息论创始人说的:香农)信息的衡量:使用信息熵,反应信息量的多少信息熵的定义决策树的划分依据之一 – 信息增益3、决策树APIsklearn.tree.DecisionTreeClassifier(criterion="gini",max_depth=Non原创 2022-03-15 17:11:36 · 1879 阅读 · 0 评论 -
机器学习之朴素贝叶斯算法
一、什么是朴素贝叶斯算法?概率的定义:一件事情发生的可能性(统计学中定义为一事件随着次数的增加发生频率的稳定值即为该事件发生的概率),其取值位于[0,1]。联合概率、条件概率与相互独立(统计学知识)贝叶斯公式(朴素的含义:假设特征与特征之间是相互独立)二、应用场景朴素贝叶斯主要是用于文本分类或者文章的情感分析当中,因为针对文本可以将单词作为特征以下面为例这里比较P(C|Chinese,Chinese,Chinese,Tikyo,Japan)与P(非C|Chinese,Chinese,C原创 2022-03-15 15:12:46 · 1209 阅读 · 0 评论 -
MAC下报错unable to get local issuer certificate (_ssl.c:1051)>
1、取消全局验证:该问题主要是常见于爬虫时使用request访问网站以及在机器学习中常常在线请求一些数据集合时候发生。该错误的主要原因就是SSL的安全证书的原因,mac电脑下十分常见该类错误。直接粘贴以下代码即可。import ssl ssl._create_default_https_context = ssl._create_unverified_context2、其它靠谱参考方式彻底解决Mac下Python的SSL各类报错全面的解决方案(如果使用上面两种方法均无效,点击该链接去查看更多原创 2022-03-15 15:05:48 · 5674 阅读 · 0 评论 -
机器学习案列【预测facebook签到位置】
数据集介绍目的是预测一个人想要签入那些地方,Facebook创造一个人造世界。对于一个给定目标,你的任务就是返回最有可能的地方的排名列表。数据详解及下载点击此处File descriptionstrain.csv test.csvrow_id:签到事件的idx y:坐标精度:定位精度时间:时间戳place_id:企业的id,这是你预测的目标流程分析(⭐️这一部分要反复熟悉!!!)获取数据数据处理(目标:特征值+目标值)a. 缩小数据范围(取坐标2<x<2.5 1&l原创 2022-03-14 22:11:23 · 1195 阅读 · 0 评论 -
机器学习之模型选择与调优
一、交叉验证什么是交叉验证?将拿到的训练数据分为训练和验证集。例如将训练数据分成4份,其中一份作为验证集。然后经过4组的测试,每次都更换不同的验证集,即得到4组模型的结果,取平均值作为最终结果,并称为4折交叉验证。训练集:训练集+验证集测试集:测试集为什么需要交叉验证?为了让被评估的模型更加准确可信二、超参数搜索-网格搜索(Grid Search)什么是参数搜索?通常情况下,有很多参数是需要手动指定的(如KNN中的K值),这种叫做超参数。但是手中过程繁杂,所以需要对模型预设几种超参数原创 2022-03-10 21:53:19 · 1361 阅读 · 0 评论 -
机器学习之常用的数据特征相关操作
针对分类数据sklearn.feature_extraction.DictVectorizer的使用是关键sklearn.feature_extraction.DictVectorizer(sparse=True,.....)-DictVectorizer.fit_transform(X)返回spare矩阵-DictVectorizer.inverse_transform(X)转换之前的数据格式-DictVectorizer.get_feature_names()返回类别名称sparse=tr原创 2022-03-08 21:22:30 · 331 阅读 · 0 评论 -
机器学习之K-近邻算法(KNN)
K Nearest Neighbor算法这个算法是机器学习里面比较经典的算法,也叫做KNN算法,总体来说KNN算法是相对比较容易理解的算法算法定义:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别距离公式(一般要处理数据如标准化后再计算距离)欧式距离曼哈顿距离明可夫斯基距离KNN算法中K取值的分析K取的过小,容易受到异常点的影响;K取的过大,容易受到样本不均衡的影响;KNN算法的APIsklearn原创 2022-03-10 21:02:31 · 939 阅读 · 0 评论 -
sklearn之转换器和预估器
一、转换器实例化(实例化一个转换器类Transformer)调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们将特征工程的接口称之为转换器,其中转换器调用有这么几种形式(以标准化为例)fit_transform 包含以下两种方法,是fit和transform的整合fit 计算每一列的平均值、标准差transform 计算(x-mean)/std二、估计器(sklearn机器算法的实现)在sklearn中,估计器(estimator)是一个重要的角色,是一原创 2022-03-10 19:59:31 · 204 阅读 · 0 评论 -
机器学习之使用TF-IDF算法进行文本特征的提取
TF-IDF的主要思想如果一个词或短语在某一篇文章中出现的概率很高,并且在其它文章中很少出现,则认为该词或短语具有很好的类别区分能力,适合用来分类TF-IDF的作用用以评估一个词语对于一个文件或者一个语料库中的其中一份文件的重要程度TF-IDF公式词频(term frequency,简称TF),指的是某一个给定的词语在该文件中出现的频率;逆向文档频率(inverse document frequency,简称IDF)是一个词语普遍重要性的重要度量。某一特定词语idf由总文件数目除以包含该词语文原创 2022-03-08 21:10:05 · 2913 阅读 · 0 评论