机器学习
文章平均质量分 95
灵魂捕手
世界尽头的地方,是雄狮落泪的地方,是月亮升起的地方,是美梦诞生的地方。
展开
-
【机器学习】k-means
一、非监督学习(unsupervised learning)K-means 1)从原始数据到聚类完毕的数据: 2)聚类流程示意图: 二、k-means步骤 1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别 3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值) 4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二部过程 三、k-means API ● sklean.原创 2020-07-26 19:17:55 · 462 阅读 · 0 评论 -
【机器学习】逻辑回归
一、分类算法-逻辑回归 应用场景 ● 广告点击率 ● 是否为垃圾邮件 ● 是否患病 ● 金融诈骗 ● 虚假账号 (逻辑回归是解决二分类问题的利器) 逻辑回归公式 二、sigmoid函数 趋势图: 公式: 输出:[0,1]区间的概率值,默认0.5作为阀值 注:g(z)为sigmoid函数 三、逻辑回归的损失函数、优化(了解) 与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解 对数似然损失函数: 完整的损失函数: cost损失的值原创 2020-07-25 23:43:41 · 275 阅读 · 0 评论 -
【机器学习】线性回归
一、线性关系模型 一个通过属性的线性组合来进行预测的函数: w为权重,b称为偏置项,可以理解为: 二、线性回归 定义:线性回归通过一个或者多个自变量和因变量之间进行建模的回归分析。其中可以为一个或多个自变量之间的线性组合(线性回归的一种) 一元线性回归:涉及到的变量只有一个 多元线性回归:涉及到的变量两个或两个以上 通用公式: 其中w,x为矩阵: 三、损失函数(误差大小) ●为第i个训练样本的真实值 ●为第i个训练样本特征值组合预测函数 总损失定义: 又称最小二..原创 2020-07-20 00:29:23 · 1063 阅读 · 0 评论 -
【机器学习】决策树和随机森林
认识决策树 一、决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 二、实例:猜谁是世界杯冠军 每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是世界冠军?我可以把球编上号,从1到32,然后提问:冠军在1-16号吗?依次询问,只需要五次就可以知道结果。 信息熵 “谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是: ● H的专业术语称之为信息熵,单位为比特。 .原创 2020-07-18 22:13:15 · 799 阅读 · 0 评论 -
【机器学习】朴素贝叶斯算法
一、联合概率和条件概率 联合概率:包含多个条件,且所有条件同时成立的概率。 记作:P(A,B) P(A,B)=P(A)P(B) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率。 记作:P(A|B) 特性:P(A1,A2|B)=P(A1|B)P(A2|B) 注意:此条件概率的成立,是由于A1,A2相互独立的结果 二、朴素贝叶斯-贝叶斯公式 注:w为给定文档的特征值(频数统计,预测文档提供),c为文档类别 公式可以理解为: 其中c可以是不同类别 公式分为三个部分:原创 2020-07-12 19:36:49 · 662 阅读 · 0 评论 -
【机器学习】K-近邻算法
一、分类算法-k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法。 案例:电影分类 计算距离公式 两个样本的距离可以通过如下公式计算,又叫欧氏距离 比如说,a(a1,a2,a3),b(b1,b2,b3) 二、sklearn k-近邻算法API ...原创 2020-07-11 15:50:09 · 194 阅读 · 0 评论 -
【机器学习】机器学习算法分类以及开发流程
一、机器学习开发流程 首先需要明确: (1)算法是核心,数据和计算是基础 (2)找准定位 大部分复杂模型的算法设计都是算法工程师在做,而我们 ● 分析很多的数据 ● 分析具体的业务 ● 应用常见的算法 ● 特征工程、调参数、优化 我们应该怎么做: 1.学会分析问题,使用机器学习算法的目的,想要算法完成何种任务 2.掌握算法基本思想,学会对问题用相应算法解决 3.学会利用库或者框架解决问题 数据类型 ● 离散型数据:由记录不同类别个体的数目所得到的的数据,又称计数数据,所有这些数据原创 2020-07-05 20:56:27 · 398 阅读 · 0 评论 -
【机器学习】数据降维
一、特征选择 1、特征选择是什么 1)什么是特征? 鸟:羽毛颜色、眼睛宽度、是否有爪子、爪子长度 2)特征选择是什么 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变或不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。 主要方法(三大武器):Filter(过滤器):VarianceThreshold Embedded(嵌入式):正则化、决策...原创 2020-07-05 12:21:29 · 241 阅读 · 0 评论 -
【机器学习】数据特征预处理
一、特征预处理是什么 通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值型数据:标准缩放: 1、归一化 2、标准化 3、缺失值 类别型数据:one-hot编码 时间类型:时间的切分 sklearn特征处理API:sklean.preprocessing 二、特征预处理-归一化 特点:通过对原始数据进行变化把数据映射到(默认为[0,1])之间 ...原创 2020-06-29 00:43:06 · 289 阅读 · 0 评论 -
【机器学习】特征工程和文本特征提取
一、特征工程是什么 特征工程是将原始数据转换未更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测的准确性。 二、数据集 结构:特征值+目标值 举例:房价预测 注:有些数据集可以没有目标值 三、机器学习工作流程 四、scikit-learn库介绍 ● python语言的机器学习工具 ● scikit-learn包括许多知名的机器学习算法的实现 ● scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎 ...原创 2020-06-27 22:06:57 · 487 阅读 · 0 评论