机器学习
文章平均质量分 71
嘿哈哈哈哈哈哈
这个作者很懒,什么都没留下…
展开
-
Bagging和随机森林
Bagging是Bootstrap aggregating的缩写,该方法的核心包括自助抽样(boostrap)和平均(aggregating)Bagging自助抽样过程通过有放回抽样的方式,获取与原数据集D大小一样的样本集Dt。给定n个样本的数据集D,对于迭代(t=1,2,…,T),用来创建分类器Mt,基于基分类器的投票返回类预测。一个样本有1-1/n的概率不会被选到,则一个样本不会被抽到的概率是limn→∞(1−1n)n=0.368 \lim_{n\rightarrow \infty }\le原创 2021-08-14 17:14:17 · 522 阅读 · 0 评论 -
集成模型概述
集成多个模型的能力,得到比单一模型更佳的效果。为什么集成方法通常能够达到比单一模型更好的性能?1.增强模型的表达能力:单个感知机模型无法正确分类数据,集成三个感知机模型能正确分类数据2.降低误差:假设单个分类器误差p,分类器之间独立,T个分类器采用投票进行预测,得到集成模型H,集成分类器误差为T=0.5,p=0.1,ErrorH<0.01。基模型集成策略:多数投票方法(majority vote)平均(averaging)加权平均(weighted averaging)典型的原创 2021-08-14 10:41:03 · 1597 阅读 · 0 评论 -
分类-朴素贝叶斯
朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的分类方法。特征条件独立性是指咋给定样本类别的前提下,任一特征的取值与其他特征都不相关。虽然这一假设在很多场景下与现实不相符合,但是朴素贝叶斯却在相关的任务上有着较好的效果。它在文本分类、垃圾邮件过滤、情感分析等文本分析问题,医学诊断和推荐系统等领域得到了广泛应用。贝叶斯定理假设X,Y是一对随机变量,它们的联合概率p(X=x,Y=y)是指X取值x且Y取值y的概率,条件概率p(Y=y|X=x)是指变量X在取值X的情况下,变量Y取值y的概率。联合概率和原创 2021-08-14 10:14:21 · 187 阅读 · 0 评论 -
分类-决策树
决策树中的叶子节点代表决策的结果,决策的结果是根据树的根节点到该叶子节点的路径上的一系列问题来决定的。决策树模型的核心问题是如何根据训练数据自动生成决策树。数据示例:决策树:决策树的生成 决策树的生成一般是从根节点开始,选择对应特征,然后选择该节点特征的分裂点,根据分裂点确定分裂节点。对于离散型特征,节点根据原创 2021-08-13 16:57:35 · 1611 阅读 · 0 评论 -
分类-逻辑回归
逻辑回归采用了回归分析的思想。然而是用来解决分类问题的模型,且通常解决的是二分类问题。逻辑回归是应用最为广泛的模型之一,如金融领域的风险评估、互联网广告点击预测等从线性回归到逻辑回归在线性回归中预测目标y是连续型,且可以写成样本x每一个特征的线性加权形式:y=wTx,其中w为参数向量。假设我们现在解决的是二分类问题,即预测目标y此时取值为1或-1.为了能够利用回归的方法解决二分类问题,我们需要对线性回归的输原创 2021-08-11 16:44:56 · 169 阅读 · 0 评论 -
回归模型-简单线性回归
在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。一元线性回归模型y=w0+w1x+ε,其中w0,w1为回归系数,ε为随机误差项,假设ε~N(0,σ2),则随机变量y~N(w0+w1x,σ2)。面对一个具体问题,给定样本集合D={(x1,y1),…,(xn.yn)},我们的目标是找到一条直线y=w0+w1x使得所有样本点尽可能落在它的附近。数据模型为(w0^,w1^)=argmin(w0^,w1^)∑i=1n(yi−w0−w1xi)2 (\hat{w原创 2021-08-11 10:22:08 · 1302 阅读 · 0 评论 -
常用的数据转换方法
1特征编码 模型输入的特征通常需要是数值型的,所以需要将非数值型特征转换为数值特征,如性别、职业、收入水平、国家、汽车使用品牌等。特征编码包括数字编码、One-Hot编码、哑变量编码方法。1.1数字编码 一种简单的数字编码方法是从0开始赋予特征的每一个取值一个整数。对于等级型特征,按照特征取值从小到大进行整数编码可以保证编码后的数据保留原有的次序关系。 原特征 收原创 2021-08-10 16:17:50 · 9712 阅读 · 0 评论 -
数值型数据距离
闵可夫斯基距离d(i,j)=∣xi1−xj1∣h+∣xi2−xj2∣h+...+∣xid−xjd∣hh d(i,j)=\sqrt[h]{\left | x_{i1}-x_{j1}\right | ^h+\left | x_{i2}-x_{j2}\right | ^h+...+\left | x_{id}-x_{jd}\right | ^h }d(i,j)=h∣xi1−xj1∣h+∣xi2−xj2∣h+...+∣xid−xjd∣hi=(xi1,xi2…xid),i=(xj1,xj2…x原创 2021-08-08 16:30:18 · 408 阅读 · 0 评论 -
机器学习的基本方法
有监督学习数据集中的样本带有标签,有明确目标,目标:找到样本到标签的最佳映射典型方法:●回归模型:典型的有监督学习任务,样本的标签为连续型,如收入、销量等。有线性回归、岭回归、LASSQ和回归样条等●分类模型:典型的有监督学习任务,样本的标签为离散型。包括二分类和多分类问题。有逻辑回归、K近邻、决策树、支持向量机等无监督学习数据集中的样本没有标签,没有明确目标,根据数据本身分布的特点,挖掘反映数据的内在特性。如聚类、降维、排序、密度估计、关联规则挖掘强化学习智慧决策的过程,通过过程模拟和观原创 2021-08-08 10:34:35 · 379 阅读 · 0 评论 -
python(scikit-learn)实现k均值聚类算法
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法from sklearn.cluster import KMeansimport numpy as npimport matplotlib.pyplot as pltx = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans = KMeans(n_clusters=2, random_state=0).fit(x)原创 2021-07-31 09:59:16 · 781 阅读 · 0 评论 -
k-均值聚类算法
1聚类1.1聚类定义聚类是把数据对象集合按照相似性划分为多个子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。聚类是无监督学习,因为给的数据没有类标号信息。1.2分类与聚类分类:有监督学习;通过有标签样本学习分类器。聚类:无监督学习;通过观察学习,将数据分隔成多个簇。1.3聚类的应用商业领域:聚类分析背用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。电子商务:聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子原创 2021-07-30 09:58:03 · 5685 阅读 · 0 评论 -
Apriori算法
1.1关联分析关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或多个事物之间存在一定的关联关系,那么其中一个事物发生就能够预测与它相关联的其它事物的发生。项集:包含0个或多个项的集合。例如,{Milk,Bread,Diaper}k-项集:包含k个项的项集。支持度计数:包含特定项集的事务个数,σ({Milk,Bread,Diaper})=2支持度:包含项集事务数与总事务数的比值。例原创 2021-07-28 09:35:57 · 707 阅读 · 0 评论