机器学习
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。
Jeremy_Lee123
AI Everywhere!
展开
-
机器学习概论
一、机器学习是什么机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。(摘自百度百科)传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。随着大数据时代各行...原创 2020-03-03 00:48:36 · 1203 阅读 · 0 评论 -
Scikit-learn机器学习入门
机器学习逻辑表安装SciKit Learnpip install numpypip install sklearnpip install matplotlibsklean中自带的数据iris 鸢尾属植物数据(分类)from sklearn import datasetsiris = datasets.load_iris()Boston房价...原创 2020-03-03 00:54:09 · 485 阅读 · 0 评论 -
Anaconda安装及使用
一、什么是AnacondaAnaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。二、下载AnacondaAnaco...原创 2020-03-03 17:46:06 · 1602 阅读 · 1 评论 -
Pycharm基于Anaconda配置PySpark
一、开发PySpark 所需准备环境安装python环境:下载安装Anaconda。参考:https://lixinkuan.blog.csdn.net/article/details/104636483 安装PyCharm:下载安装PyCharm。 官网下载Spark安装包:由于PyCharm开发spark 需要本地Spark环境,所以要在官网中下载Spark安装包到本地(这里我们下载S...原创 2020-03-03 18:22:26 · 1119 阅读 · 1 评论 -
机器学习之线性回归值预测算法
一、线性回归什么是回归?从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。——主要是解决值预测的问题一元线性回归:只包括一个自变量(x1)和一个因变量(y),且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。公式:多元线性回归:如果回归分析中包括...原创 2019-09-25 11:02:56 · 8380 阅读 · 1 评论 -
机器学习之朴素贝叶斯分类算法
一、数学知识相关1.独立事件--前提2.条件概率3.全概率公式4.贝叶斯公式5.朴素贝叶斯公式其中:P(A)叫做A事件的先验概率,即一般情况下,认为A发生的概率。 P(B|A)叫做似然度,是A假设条件成立的情况下发生B的概率。 P(A|B)叫做后验概率,在B发生的情况下发生A的概率,也就是要求的概率。P(B)叫做标准化常量,即在一般情况下,认为B...原创 2019-09-25 14:29:54 · 167684 阅读 · 0 评论 -
机器学习之KNN最邻近分类算法
一、KNN最邻近算法K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,有监督算法。该方法的思路是:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法由你的邻居来推断出你的类别,KNN算法就是用距离来衡量样本之间的相似度。如果K = 3,绿色圆点的最近的3...原创 2019-09-25 19:15:46 · 1113 阅读 · 0 评论 -
机器学习之K-means聚类算法
一、机器学习中两大类问题一个是分类,一个是聚类。分类是监督学习,原始数据有标签,可以根据原始数据建立模型,确定新来的数据属于哪一类。 聚类是一种无监督学习,聚类是指事先没有“标签”,在数据中发现数据对象之间的关系,将数据进行分组,一个分组也叫做“一个簇”,组内的相似性越大,组间的差别越大,则聚类效果越好,也就是簇内对象有较高的相似度,簇之间的对象相似度比较低,则聚类效果越好。K-me...原创 2019-09-25 21:46:23 · 3927 阅读 · 0 评论 -
机器学习之逻辑回归分类算法
一、逻辑回归逻辑回归又叫logistic回归分析,是一种广义的线性回归分析模型。线性回归要求因变量必须是连续性的数据变量,逻辑回归要求因变量必须是分类变量,可以是二分类或者多分类(多分类都可以归结到二分类问题),逻辑回归的输出是0~1之间的概率。比如要分析年龄,性别,身高,饮食习惯对于体重的影响,如果体重是实际的重量,那么就要使用线性回归。如果将体重分类,分成了高,中,低三类,就要使用逻辑回归...原创 2019-09-25 22:45:37 · 825 阅读 · 0 评论 -
机器学习之决策树分类算法
决策树和随机森林:决策树和随机森林都是非线性有监督的分类模型。决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别。通过训练数据构建决策树,可以对未知数据进行分类,随机森林是由多个决策树组成,随机森林中每一棵决策树之间没有关联,在得到一个随机森林后,当有新的样本进入的时候,随机森林中的每一棵决策树分别进行判断,分析出该样本属于哪一...原创 2019-09-26 11:30:57 · 3261 阅读 · 0 评论 -
机器学习之推荐系统理论
一、什么是推荐系统?根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品. 推荐系统的产生是为了解决信息过载二、推荐系统定义源数据:要推荐物品或内容的元数据,例如关键字,基本描述等; 系统用户的基本信息,例如性别,年龄等 用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。 其实这些用户的偏好信息可以分...原创 2019-09-26 16:07:20 · 777 阅读 · 0 评论