机器学习实践
泡泡码客
觉醒迷途,扬帆起航,从此星途璀璨。
展开
-
机器学习实践(一)—sklearn之概述
1956年,人工智能元年。人类能够创造出人类还未知的东西。这未知的东西人类能够保证它不误入歧途吗。一、机器学习和人工智能,深度学习的关系机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来二、机器学习,深度学习的应用场景挖掘、预测领域:应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类…图像领域:应用场景...原创 2018-11-25 11:42:55 · 632 阅读 · 0 评论 -
机器学习实践(十三)—sklearn之欠拟合与过拟合
当训练数据训练的很好误差也不大的时候,为什么在测试集上面进行预测会有较大偏差呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。一、什么是过拟合与欠拟合欠拟合一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)过拟合一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上...原创 2019-05-08 17:52:24 · 950 阅读 · 0 评论 -
[Python-代码实现]统计学习方法之感知机模型
通过鸢尾花数据对感知机模型进行训练及展示手写 Codingimport pandas as pdimport numpy as npfrom sklearn.datasets import load_irisimport matplotlib.pyplot as plt# 五、构建训练模型class Model: def __init__(self, data): ...原创 2018-12-03 13:28:01 · 218 阅读 · 0 评论 -
机器学习实践(十七)—sklearn之无监督学习-K-means算法
一、无监督学习概述什么是无监督学习之所以称为无监督,是因为模型学习是从无标签的数据开始学习的。无监督学习包含算法聚类K-means(K均值聚类)降维PCA二、K-means原理K-means聚类步骤随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中...原创 2018-12-01 23:13:09 · 726 阅读 · 0 评论 -
机器学习实践(十六)—sklearn之模型保存和加载
一、sklearn - 模型的保存和加载 - APIfrom sklearn.externals import joblib保存joblib.dump(rf, ‘test.pkl’)加载estimator = joblib.load(‘test.pkl’)二、示例助解保存# 使用线性模型进行预测# 使用正规方程求解lr = LinearRegression...原创 2018-12-01 23:10:56 · 801 阅读 · 2 评论 -
机器学习实践(十五)—sklearn之分类算法-逻辑回归、精确率、召回率、ROC、AUC
逻辑回归虽然名字中带有回归两字,但它实际是一个分类算法。一、逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器二、逻辑回归的原理输入逻辑回归的输入其实就是线性回归即:hθ(x)=θTxh_\theta(x)=\theta^Txhθ(x)=...原创 2018-12-01 23:09:53 · 6555 阅读 · 0 评论 -
机器学习实践(十四)—sklearn之岭回归(线性回归的改进)
带有 L2 正则化的线性回归就是岭回归。岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。加上正则化,也就是使权重满足划分正确结果的同时尽量的小一、岭回归 - API岭回归 - APIsklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”, ...原创 2018-12-01 23:07:31 · 702 阅读 · 0 评论 -
机器学习实践(十一)—sklearn之随机森林
一、什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。二、什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结...原创 2019-05-08 17:53:11 · 361 阅读 · 0 评论 -
机器学习实践(十)—sklearn之决策树
一、决策树分类概述介绍决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。原理信息熵信息增益二、信息熵定义HHH 的专业术语称之为信息熵,单位为比特。公式H(X)=∑i=1np(xi)I(xi)=−∑i=1nP(xi)log2P(xi)H(X) = \sum_{i=1}...原创 2018-11-25 11:56:15 · 1026 阅读 · 0 评论 -
机器学习实践(九)—sklearn之朴素贝叶斯算法
一、朴素贝叶斯算法什么是朴素贝叶斯分类方法属于哪个类别概率大,就判断属于哪个类别概率基础概率定义为一件事情发生的可能性P(X) : 取值在[0, 1]联合概率、条件概率与相互独立联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率记作:P(A|B)相互独立:如果P(A, B...原创 2018-11-25 11:54:47 · 965 阅读 · 0 评论 -
机器学习实践(八)—sklearn之交叉验证与参数调优
一、交叉验证与参数调优交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练集、验证集和测试集。训练集:训练集+验证集测试集:测试集为什么需要交叉验证为了让被评估的模型更加稳健参数调优超参数搜索-网格搜索(Grid Search)通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程...原创 2018-11-25 11:51:30 · 5338 阅读 · 2 评论 -
机器学习实践(七)—sklearn之K-近邻算法
一、K-近邻算法(KNN)原理K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离...原创 2018-11-25 11:49:20 · 570 阅读 · 0 评论 -
机器学习实践(六)—sklearn之转换器和估计器
一、sklearn转换器想一下之前做的特征工程的步骤?1 实例化 (实例化的是一个转换器类(Transformer))2 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式fit_transformfittransform这几个方法之间的区别是什么呢?我们看以下代码就清楚了...原创 2018-11-25 11:47:15 · 925 阅读 · 0 评论 -
机器学习实践(五)—sklearn之特征降维
一、特征降维概述为什么要对特征进行降维处理如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大什么是降维降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降维的作用减少特征数量减少特征相关性,去除相关性强的特征,比如 相对湿度与降雨量降维的两种方式特征选择主成分分析(PCA)二、什么是...原创 2018-11-25 11:46:28 · 3316 阅读 · 21 评论 -
机器学习实践(四)—sklearn之特征预处理
一、特征预处理概述什么是特征预处理# scikit-learn的解释provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream es...原创 2018-11-25 11:45:50 · 390 阅读 · 0 评论 -
机器学习实践(三)—sklearn之特征工程
一、特征工程介绍1. 为什么需要特征工程Andrew Ng : “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”注:业界广泛流传:数据和特征决定了机器学...原创 2018-11-25 11:44:56 · 515 阅读 · 0 评论 -
机器学习实践(二)—sklearn之数据集
一、可用数据集Kaggle网址:https://www.kaggle.com/datasetsUCI数据集网址: http://archive.ics.uci.edu/ml/scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html各数据集优点sk 数据量小,方便学习uci 数据真实,全面ka 竞赛平台,...原创 2018-11-25 11:44:04 · 651 阅读 · 0 评论 -
ubuntu18 Anaconda3 安装步骤
清华镜像站下载你想要的版本 清华镜像站sh Anaconda3-5.3.1-Linux-x86_64.sh阅读须知, 一路回车,Do you accept the license terms? [yes|no] yesAnaconda3 will now be installed into this location:/home/videt/anaconda3 - Press ...原创 2019-07-23 09:01:53 · 946 阅读 · 0 评论