机器学习
C-Jonn
python
Keep calm and carry on!
展开
-
【机器学习】聚类算法-k-means No.14
1、非监督学习的特点只有特征值,没有目标值(物以类聚,人以群分)2、聚类过程随机设置K个特征空间内的点作为初始的聚类中心; 对于其他每个点分别计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别; 接着对着标记的聚类中心,重新计算出每个聚类的新中心点(平均值); 如果计算得出的中心点与原中心点一致,则聚类结束,否则继续进行第二步计算。3、k-means A...原创 2020-03-09 23:41:40 · 323 阅读 · 0 评论 -
【机器学习】分类算法-逻辑回归 No.13
1、定义逻辑分类是解决二分类问题的利器逻辑回归公式:2、损失函数3、Sklearn逻辑回归APIsklearn.linear_model.LogisticRegression4、案例:良/恶性癌症预测数据地址:http://archive.ics.uci.edu/ml/machine-learning-databases/breast-can...原创 2020-03-09 22:39:34 · 192 阅读 · 0 评论 -
【机器学习】过拟合及欠拟合、岭回归 No.12
一、过拟合及欠拟合1、过拟合:一个假设在训练集数据上能够比其他假设更好的拟合,但是在训练集外的数据集上却不能很好的拟合数据,此时认为这个假设出现了过拟合现象。(模型过于复杂)过拟合原因:原始特征太多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点。模型复杂的原因是:数据的特征和目标值之间的关系不仅仅是线性关系。解决方法:进行特征选择,消除关联性大的特征(很难做);交叉...原创 2020-03-08 21:26:48 · 4640 阅读 · 0 评论 -
【机器学习】回归算法之线性回归 No.11
1、线性关系:如下表中房价随着面积的变化,通过绘制点后,这些点基本上是均匀分布在一条线的周围,则这两个变量间的关系可以使用一条直线描述,将这种关系称为线性关系。线性关系使用如下函数描述:2、矩阵3、损失函数最小二乘法之正规方程最小二乘法之梯度下降如下损失函数示例图:4、sklearn 线性回归正规方程和梯度下降API正规方程:sklear...原创 2020-03-07 23:50:51 · 145 阅读 · 0 评论 -
【机器学习】分类模型的评估、模型的选择与调优 No.10
一、分类模型的评估1、分类模型的评估(1)准确率 estimator.score() :一般最常见使用的是准确率,即预测结果正确的百分比。(2)精确率和召回率2、分类模型评估APISklearn.metrics.classification_report二、模型的选择与调优1、交叉验证目的:为了让被评估的模型更加准确可信交叉验证:将...原创 2020-03-07 18:47:37 · 492 阅读 · 0 评论 -
【机器学习】分类算法-朴素贝叶斯算法 No.9
1、概率基础联合概率和条件概率2、朴素贝叶斯-贝叶斯公式例:3、Sklearn朴素贝叶斯APISklearn.naive_bays.MultinomiaINB4、案例案例流程: 第一步:加载20类新闻数据,并进行分割 第二步:生成文章特征词 第三步:朴素贝叶斯estimator流程进行预估...原创 2020-03-04 23:32:54 · 250 阅读 · 0 评论 -
【机器学习】分类算法-k近邻算法(KNN)No.8
1、定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。最早是由Cover和Hart提出的一种分类算法。2、计算方式K近邻算法需要对数据做标准化处理3、sklearn K近邻算法API4、案例:预测入住位置 (1)数据:https://www.kaggle.com/c/facebook-v...原创 2020-03-03 23:14:01 · 264 阅读 · 0 评论 -
【机器学习】sklearn数据集与估计器 No.7
1、sklearn数据集(1) 数据的划分和介绍机器学习中一般将数据集划分为两个部分:训练数据:用于训练,构建模型。测试数据:在模型检验时使用,用于评估模型是否有效(2)数据集划分APIsklearn.model_selection.train_test_split # 分割数据集到训练集合,测试集合.数据随机切分x_train, x_test, y_tr...原创 2020-03-02 22:57:30 · 174 阅读 · 0 评论 -
【机器学习】机器学习算法分类及开发流程 No.6
1、算法分类数据类型:离散型数据和连续型数据数据的类型将是机器学习模型不同问题不同处理的依据(1) 监督学习(预测):特征值+目标值分类(目标值离散型): k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归,神经网络 回归(目标值连续型):线性回归、岭回归 标注:隐马尔科夫模型(2)非监督学习:只有特征值聚类:k-means(3)相关概念监督学习:可由输入数据...原创 2020-03-01 23:00:20 · 364 阅读 · 0 评论 -
【机器学习】数据降维 No.5
此处维度主要指的是:特征的数量降维主要有两种方式:1、特征选择,2、主成分分析1、特征选择(1)特征选择是什么?特征选择就是单纯的从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小。(2)特征选择的原因消除冗余:部分特征值的相关度高,容易消耗计算性能 处理噪声:部分特征对预测结果有影响...原创 2020-03-01 19:15:06 · 249 阅读 · 0 评论 -
【机器学习】随机森林 No.4
(1)什么是随机森林?集成学习方法:集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立的学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的方法作出预测。 随机森林:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。(2)随机森林建立多个决策树的过程单个决策树建立过程如下:对于...原创 2020-03-01 00:06:45 · 336 阅读 · 0 评论 -
【机器学习】决策树 No.3
1、决策树之信息论基础决策树思想来源非常朴素,程序设计中的条件分支结构(if-else),最早的决策树就是利用这类结构分割数据的一种分类学习方法。例:银行贷款例子(使用决策树划分是否贷款),此处特征为两个:房子,工作:香农,信息论创始人,1948年发表论文-通信的数学原理,奠定了现代信息论的基础。信息的单位:比特信息熵和消除不确定性相关联。2、决策树的划分及...原创 2020-02-27 23:54:16 · 679 阅读 · 0 评论 -
【机器学习】(数值型)数据特征预处理 No.2
特征处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。数值型数据:标准缩放(1、归一化,2、标准化,3、缺失值)类别型数据:one-hot编码时间类型:时间的切分Sklearn特征处理API: sklearn.preprocessing归一化特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间 Sklearn 归一化A...原创 2020-02-27 00:03:38 · 780 阅读 · 0 评论 -
【机器学习】初始及字典和文本特征处理 No.1
一、机器学习简介1、图灵(图灵测试)和马文.李.闵斯基(人工智能领域贡献杰出)人工智能发展限制因素:计算能力,算法,数据大小2、什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。3、为什么需要机器学习?解放生产力(智能客服),解决专业问题(ET医疗)。让机器学习程序代替人工操作步骤,减少企业的成本,提高企业的效率。...原创 2020-02-25 23:51:37 · 407 阅读 · 0 评论