![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 96
泡泡码客
觉醒迷途,扬帆起航,从此星途璀璨。
展开
-
机器学习-向量化
查看更多 - https://breezedawn.github.io/向量化 - 传统累加运算 - 代码实现:import timeimport numpy as np# 定义两组向量vector1 = np.random.rand(100000)vector2 = np.random.rand(100000)# 使用向量化start_time = time.time()...原创 2018-10-25 12:05:36 · 427 阅读 · 2 评论 -
机器学习实践(六)—sklearn之转换器和估计器
一、sklearn转换器想一下之前做的特征工程的步骤?1 实例化 (实例化的是一个转换器类(Transformer))2 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式fit_transformfittransform这几个方法之间的区别是什么呢?我们看以下代码就清楚了...原创 2018-11-25 11:47:15 · 894 阅读 · 0 评论 -
机器学习实践(七)—sklearn之K-近邻算法
一、K-近邻算法(KNN)原理K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离...原创 2018-11-25 11:49:20 · 544 阅读 · 0 评论 -
机器学习实践(八)—sklearn之交叉验证与参数调优
一、交叉验证与参数调优交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练集、验证集和测试集。训练集:训练集+验证集测试集:测试集为什么需要交叉验证为了让被评估的模型更加稳健参数调优超参数搜索-网格搜索(Grid Search)通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程...原创 2018-11-25 11:51:30 · 5048 阅读 · 2 评论 -
机器学习实践(九)—sklearn之朴素贝叶斯算法
一、朴素贝叶斯算法什么是朴素贝叶斯分类方法属于哪个类别概率大,就判断属于哪个类别概率基础概率定义为一件事情发生的可能性P(X) : 取值在[0, 1]联合概率、条件概率与相互独立联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率记作:P(A|B)相互独立:如果P(A, B...原创 2018-11-25 11:54:47 · 953 阅读 · 0 评论 -
机器学习实践(十)—sklearn之决策树
一、决策树分类概述介绍决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。原理信息熵信息增益二、信息熵定义HHH 的专业术语称之为信息熵,单位为比特。公式H(X)=∑i=1np(xi)I(xi)=−∑i=1nP(xi)log2P(xi)H(X) = \sum_{i=1}...原创 2018-11-25 11:56:15 · 1006 阅读 · 0 评论 -
机器学习实践(十一)—sklearn之随机森林
一、什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。二、什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结...原创 2019-05-08 17:53:11 · 353 阅读 · 0 评论 -
kaggle实战之竞赛步骤
特征使用方案基于业务理解,尽可能找出对因变量有影响的所有自变量并根据获取难度、覆盖率、准确率对特征进行可用性评估特征获取如何获取这些特征如何存储特征清洗清洗异常特征进行采样,如果数据不均衡,可以使用上采样或下采样保证数据均衡将少的数据给予大的权重,以模型能够着重考虑少的数据把多数据分为多类与少数据组成多组数据均衡的数据,分别训练多个弱分类器,然后...原创 2018-12-04 23:34:14 · 324 阅读 · 0 评论 -
机器学习实践(十四)—sklearn之岭回归(线性回归的改进)
带有 L2 正则化的线性回归就是岭回归。岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。加上正则化,也就是使权重满足划分正确结果的同时尽量的小一、岭回归 - API岭回归 - APIsklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”, ...原创 2018-12-01 23:07:31 · 675 阅读 · 0 评论 -
机器学习实践(十五)—sklearn之分类算法-逻辑回归、精确率、召回率、ROC、AUC
逻辑回归虽然名字中带有回归两字,但它实际是一个分类算法。一、逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器二、逻辑回归的原理输入逻辑回归的输入其实就是线性回归即:hθ(x)=θTxh_\theta(x)=\theta^Txhθ(x)=...原创 2018-12-01 23:09:53 · 6512 阅读 · 0 评论 -
机器学习实践(十六)—sklearn之模型保存和加载
一、sklearn - 模型的保存和加载 - APIfrom sklearn.externals import joblib保存joblib.dump(rf, ‘test.pkl’)加载estimator = joblib.load(‘test.pkl’)二、示例助解保存# 使用线性模型进行预测# 使用正规方程求解lr = LinearRegression...原创 2018-12-01 23:10:56 · 774 阅读 · 2 评论 -
机器学习实践(十七)—sklearn之无监督学习-K-means算法
一、无监督学习概述什么是无监督学习之所以称为无监督,是因为模型学习是从无标签的数据开始学习的。无监督学习包含算法聚类K-means(K均值聚类)降维PCA二、K-means原理K-means聚类步骤随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中...原创 2018-12-01 23:13:09 · 721 阅读 · 0 评论 -
[Python-代码实现]统计学习方法之感知机模型
通过鸢尾花数据对感知机模型进行训练及展示手写 Codingimport pandas as pdimport numpy as npfrom sklearn.datasets import load_irisimport matplotlib.pyplot as plt# 五、构建训练模型class Model: def __init__(self, data): ...原创 2018-12-03 13:28:01 · 194 阅读 · 0 评论 -
最大似然估计
假设我们需要调查我们学校的男生和女生的身高分布。你怎么做啊?你说那么多人不可能一个一个去问吧,肯定是抽样了。假设你在校园里随便地活捉了100个男生和100个女生。他们共200个人(也就是200个身高的样本数据,为了方便表示,下面,我说“人”的意思就是对应的身高)都在教室里面了。那下一步怎么办啊?你开始喊:“男的左边,女的右边,其他的站中间!”。然后你就先统计抽样得到的100个男生的身高。假设他们的...转载 2018-12-03 19:21:28 · 334 阅读 · 0 评论 -
EM算法
https://blog.csdn.net/zouxy09/article/details/8537620原创 2018-12-03 19:25:27 · 141 阅读 · 0 评论 -
机器学习实践(五)—sklearn之特征降维
一、特征降维概述为什么要对特征进行降维处理如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大什么是降维降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降维的作用减少特征数量减少特征相关性,去除相关性强的特征,比如 相对湿度与降雨量降维的两种方式特征选择主成分分析(PCA)二、什么是...原创 2018-11-25 11:46:28 · 3262 阅读 · 21 评论 -
机器学习实践(四)—sklearn之特征预处理
一、特征预处理概述什么是特征预处理# scikit-learn的解释provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream es...原创 2018-11-25 11:45:50 · 364 阅读 · 0 评论 -
机器学习实践(三)—sklearn之特征工程
一、特征工程介绍1. 为什么需要特征工程Andrew Ng : “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”注:业界广泛流传:数据和特征决定了机器学...原创 2018-11-25 11:44:56 · 470 阅读 · 0 评论 -
机器学习-正则化
查看更多 - https://breezedawn.github.io/1. 正则化它可以改善或者减少过度拟合问题2. 欠拟合(模型的高偏差)欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或者模型没有很好地捕捉到数据特征,不能够很好地拟合数据。3. 过拟合(模型的高方差)为什么出现过拟合特征过多训练集数据较少模型复杂对过拟合的理解如果我们拟合一个高阶多项式,那么这...原创 2018-10-29 16:39:53 · 138 阅读 · 2 评论 -
机器学习-神经网络(一)
为什么要使用神经网络当特征太多时,计算的负荷会特别大,而普通的线性回归/逻辑回归都无法有效地处理这么多的特征,这个时候我们需要神经网络。神经网络的模型表示首先,我们为神经网络里的每一层都增加了一个偏差单元,即每一层的0号下标的单元,它的值永远为1,而偏差单元我们只在当作输入时使用。这时,我们把输入的样本特征 x0x1x2x3x_0x_1x_2x_3x0x1x2x3 看作第一层输入...原创 2018-10-31 12:03:51 · 223 阅读 · 0 评论 -
机器学习-逻辑回归
查看更多 - https://breezedawn.github.io/什么是逻辑回归算法逻辑回归算法是分类算法,可能它的名字里出现了“回归”让我们以为它属于回归问题,但逻辑回归算法实际上是一种分类算法,它主要处理当 yyy 取值离散的情况,如:1 0 。为什么不使用线性回归算法处理分类问题假设我们遇到的问题为 二分类问题,那么我们可能将结果分为负向类和正向类,即y∈0,1y\in ...原创 2018-10-27 20:17:14 · 206 阅读 · 0 评论 -
机器学习-如何有效使用机器学习算法
怎么改进算法当使用训练好的模型时,新样本输出的数据产生了巨大的误差,如何改进算法的性能。使用更多的训练样本,但通常来讲并没有什么卵用尝试选用更少的特征集,来防止过拟合或许也需要更多的特征集,当目前的特征集对你没有多大用处时,可以从更多的特征角度去收集更多的特征增加多项式特征减小正则化中的 λ\lambdaλ 的值增大正则化中的 λ\lambdaλ 的值我们不应该随机选择上面的...原创 2018-11-07 19:27:43 · 266 阅读 · 0 评论 -
机器学习-神经网络(二)
上一篇:机器学习-神经网络(一)神经网络的代价函数符号意义LLL神经网络结构总层数SlS_lSl第 lll 层的单元数量 (不包括偏差单元)K=SLK = S_LK=SL输出层的单元数量(日了个仙人板板,手写一直渲染错误只能贴图了,: ) 浪费好久时间 )代价函数中 θ0\theta_0θ0 总是被忽略的,因为我们并不想把 θ0...原创 2018-11-05 23:02:12 · 179 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月...转载 2018-11-08 11:32:07 · 150 阅读 · 0 评论 -
机器学习-支持向量机
支持向量机的代价函数J(θ)=minθC∑i=1m[y(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑i=1nθj2J(\theta) = \min_{\theta} C\sum_{i=1}^m[y^{(i)}cost_1(\theta^Tx^{(i)}) + (1-y^{(i)})cost_0(\theta^Tx^{(i)})] + \frac{1}{...原创 2018-11-08 22:07:19 · 364 阅读 · 2 评论 -
记录-统计学习方法(第一章)
一、统计学习统计学习的目的统计学习的方法有哪些统计学习方法的三要素统计学习方法的使用步骤统计学习方法、统计学习理论、统计学习应用的概念统计学习在科学技术中的重要性二、监督学习输入空间、输出空间以及特征空间回归问题、分类问题以及标注问题联合概率分布假设函数监督学习的基本模型什么是联合概率分布?如P(x,y),x与y同时发生的概率分布三、统计学习三要素方法...原创 2018-11-18 23:32:05 · 132 阅读 · 0 评论 -
机器学习-聚类算法
在无监督学习中,我们的训练集可以写成只有x(1)x^{(1)}x(1),x(2)x^{(2)}x(2)……一直到x(m)x^{(m)}x(m)。我们没有任何标签 yyy。我们希望有一种算法能够自动的把这些数据分成有紧密关系的子集或是簇。K-均值算法(K-Means)算法步骤综述K-均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为:首先选择k个随机的点,称为聚类中心(clus...原创 2018-11-18 23:33:00 · 313 阅读 · 0 评论 -
能否说出几种降低过拟合和欠拟合风险的方法
出自<百面机器学习>:https://item.jd.com/12401859.html侵删一、降低过拟合风险的方法增加训练数据 首先,我们知道的是,使用更多的训练数据是解决过拟合问题最有效的手段。因为如果说我们有更多的样本,也就是有更多的训练数据的话,我们就能够让模型学习到更多更有效的特征,从而就能减小噪声的影响。所以我们能够从数据入手来获得更多的训练...原创 2018-11-18 23:50:56 · 2760 阅读 · 0 评论 -
机器学习实践(一)—sklearn之概述
1956年,人工智能元年。人类能够创造出人类还未知的东西。这未知的东西人类能够保证它不误入歧途吗。一、机器学习和人工智能,深度学习的关系机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来二、机器学习,深度学习的应用场景挖掘、预测领域:应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类…图像领域:应用场景...原创 2018-11-25 11:42:55 · 604 阅读 · 0 评论 -
机器学习实践(二)—sklearn之数据集
一、可用数据集Kaggle网址:https://www.kaggle.com/datasetsUCI数据集网址: http://archive.ics.uci.edu/ml/scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html各数据集优点sk 数据量小,方便学习uci 数据真实,全面ka 竞赛平台,...原创 2018-11-25 11:44:04 · 604 阅读 · 0 评论 -
机器学习实践(十二)—sklearn之线性回归
一、线性回归应用场景房价预测销售额度预测金融:贷款额度预测、利用线性回归以及系数分析因子二、线性回归的原理什么是回归在机器学习中,回归就是拟合的意思,我们需要找出一个模型来拟合(回归)数据。什么是线性回归线性回归是:利用回归方程(函数),对特征值和目标值之间关系进行建模的一种分析方式。特征值和目标值可以是一个或多个,特征值和目标值可以看作函数意义上的自变量和因变量...原创 2019-05-08 17:52:58 · 4889 阅读 · 3 评论