机器学习
文章平均质量分 93
RainTicking
I dare do all that may become a man,who dare do more,is none.
展开
-
层次分析法(AHP)
层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代初期由美国匹兹堡大学运筹学家托马斯·塞蒂(T.L. Saaty)在为美国国防部研究“根据各个工业部门对国家福利的贡献大小而进行电力分配”的课题时提出。它是一种应用网络系统理论和多目标综合评价方法,提出的一种层次权重决策分析方法。是在对复杂的决策问题的本质、影响因素及其内在关系等进行深入分析的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法。转载 2024-01-08 23:43:15 · 2586 阅读 · 1 评论 -
类别型特征的编码方法
机器学习模型中除了决策树等少数模型能直接处理字符串形式的类别型特征输入外,逻辑回归、支持向量机等模型的输入必须是数值型特征才能在矩阵上执行线性代数计算,所以参加计算的特征必须是数值型的,对于非数值型的特征需要进行编码处理。对于离散属性(也称为分类变量或类别特征)的编码,我们可以使用5种方式来实现,分别是标签编码、序列编码、独热编码、频数编码和目标编码。原创 2024-01-08 23:15:04 · 1062 阅读 · 0 评论 -
AQI分析与预测
空气质量总体分布上来说,南部城市优于北部城市,西部城市优于东部城市。临海城市的空气质量整体上好于内陆城市。是否临海,降雨量与纬度对空气质量指数的影响较大。我国城市平均空气质量指数大致在(70.55 ~ 80.12)这个区间内,在该区间的可能性概率为95%。通过历史数据,我们可以对空气质量指数进行预测。通过历史数据,我们可以对城市是否临海进行预测。原创 2024-01-07 00:21:39 · 1019 阅读 · 0 评论 -
逻辑斯蒂回归
逻辑斯蒂回归(Logistic Regression)是一个非常经典的算法,虽然被称为回归,但其实际上是分类模型,并常用于二分类。因为通过逻辑回归模型,我们得到的计算结果是0-1之间的连续数字,可以把它称为“可能性”(概率),然后,给这个可能性加一个阈值,就成了分类。逻辑回归因其简单、可并行化、可解释强深受工业界喜爱。原创 2024-01-05 21:42:34 · 1855 阅读 · 0 评论 -
《Python自然语言处理》第一章笔记
下载nltk data>>>import nltk>>>nltk.download()引入book包>>>from nltk.book import *搜索文本,显示指定单词及其上下文>>>text1.concordance('monstrous')查找出现在相似上下文中的词>>>text1.sim原创 2018-07-12 08:56:01 · 414 阅读 · 1 评论 -
机器学习的分类与经典算法
监督学习是指在给定的训练集中“学习”出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征值和目标值(标签),训练集中数据的目标值(标签)是由人工事先进行标注的。监督学习流程图如下图所示,其中包括准备数据、数据预处理、特征提取和特征选择、训练模型和评价模型。图1:监督学习流程图Step1:准备数据。监督学习首先要准备数据,没有现成的数据就需要采集数据或者爬取数据,或者从网站上下载数据。可以将准备好的数据集分为训练集、验证集和测试集。原创 2024-01-01 22:58:35 · 1307 阅读 · 1 评论 -
手工计算层次分析法的最大特征根和特征向量
层次分析法在实际应用时,可以用成对比较阵A的列向量的平均值近似代替特征向量,称为和法,其步骤是:先将A的每一列向量归一化,按行求和后再归一化,得到。,用和法计算近似特征向量和近似最大特征根,并判断A是否为一致阵。(可以看例子理解)作为近似最大特征根。即为近似特征向量,并将。原创 2024-01-01 12:53:38 · 4953 阅读 · 0 评论 -
最优化算法-梯度下降法
梯度下降法是机器学习中的一种最优化算法,广泛应用于线性回归和逻辑回归中。它的核心思想是:要获得函数的最小值,最好的方法是沿着该函数的梯度的反方向探寻。原创 2020-06-27 16:15:11 · 1647 阅读 · 0 评论 -
一文读懂EM算法
EM算法是含有隐变量的概率模型极大似然估计算法,每次迭代由两步组成:E步,求期望;M步,求极大,反复迭代,直到收敛。原创 2020-06-25 21:09:17 · 395 阅读 · 0 评论 -
如何理解泰勒公式?
泰勒公式用一句话描述:就是用多项式去逼近光滑函数。原创 2020-05-26 23:30:48 · 1730 阅读 · 0 评论 -
如何通俗的理解最大似然估计法
最大似然估计就是,利用已知的样本结果,反推最有可能导致这样结果的参数值。原创 2020-05-23 16:56:20 · 6416 阅读 · 0 评论 -
决策树之要不要见相亲对象
决策树模型是一个模拟人类决策过程思想的模型,包含若干个内部结点和若干个叶结点,由根节点开始,不断基于特征分配产生子节点,直到叶子节点。原创 2020-04-11 23:53:26 · 907 阅读 · 0 评论 -
如何从购物数据中挖掘出啤酒与尿布的关联关系?
关联分析可以从大规模数据集中寻找物品间的隐含关系,尿布与啤酒就是在商业领域应用中的一个经典案例。通过提取出反映顾客偏好的有用的规则,可以制定出有效的营销策略来促进销量。原创 2020-03-15 14:53:14 · 2725 阅读 · 1 评论 -
为什么二分K-均值比K-均值的聚类效果更好?
二分K-均值算法是一种层次聚类方法,其实质就是在满足最小SSE(误差平方和)的情况下,不断的对选中的簇做k=2的k-means切分,直到聚类数等于用户指定的聚类数目k为止。原创 2020-02-29 00:28:30 · 1680 阅读 · 0 评论 -
K-均值算法的原理与实战
K-均值(K-means)算法是一种聚类算法,k是用户指定的簇个数,将相似数据点归于同一簇,不相似数据点归于不同簇。原创 2020-02-24 01:36:04 · 5629 阅读 · 2 评论