算法
爱吃串串的瘦子
程序写的棒,全凭代码浪
展开
-
机器学习(二)——贝叶斯算法
数学原理: 贝叶斯定理贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系。所谓”拼写检查”,就是在发生输入错误B的情况下,试图推断出A。从概率论的角度看,就是已知输入错误B,然后在若干个备选方案中,找出可能性最大的那个输入正确A,也就是求下面这个式子的最大值。(比如lates应该被更正为late或者latest?...原创 2020-04-11 14:36:35 · 1264 阅读 · 0 评论 -
机器学习(二)——xgboost(实战篇)Pima印第安人数据集上的机器学习-分类算法(根据诊断措施预测糖尿病的发病)
数据集简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。1 、加载库 impo...原创 2018-10-14 22:23:31 · 12299 阅读 · 4 评论 -
机器学习之特征选择 (feature_selection)
转载https://www.cnblogs.com/stevenlk/tag/%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B/目录特征选择 (feature_selection) Filter 1. 移除低方差的特征 (Removing features with low variance) 2. 单变量特征选择 (Univariate featu...转载 2018-10-15 15:42:53 · 6651 阅读 · 0 评论 -
机器学习(三)——支持向量机SVM
SVM探讨目录SVM探讨 SVM算法 硬间隔最大化的优化目标 软间隔最大化 SVM探讨SVM算法根据处理问题的复杂度,SVM 可由简到繁分为三种:线性可分支持向量机:硬间隔最大化。 线性支持向量机:数据分布近似线性可分,可通过软间隔最大化(惩罚因子,松弛变量)来线性分隔样本点。 非线性支持向量机:通过核函数提升特征维度,做个一个非线性的变换,来将非线性问题转...转载 2018-10-15 15:46:39 · 789 阅读 · 0 评论 -
机器学习(五)——时间序列ARIMA模型
ARIMA模型平稳性: 平稳性就是要求经由样本时间序列所得到的拟合曲线 在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳: 严平稳:严平稳表示的分布不随时间的改变而改变。 弱平稳:期望与相关系数(依赖性)不变 未来某时刻的t的值Xt就要依赖于它过去的信息,所以需要依赖性1.导包#美国消费者信心指数im...原创 2018-10-18 22:54:18 · 76655 阅读 · 50 评论 -
sklearn中的交叉验证(Cross-Validation)
sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解,英文水平好的建议读官方文档,里面的知识点很详细。先导入需要的库及数据集In [1]: import num...转载 2018-10-15 22:24:33 · 1714 阅读 · 0 评论 -
机器学习(四)——模型调参利器 gridSearchCV(网格搜索)
gridSearchCV(网格搜索)的参数、方法及示例1.简介GridSearchCV的sklearn官方网址:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCVGridSearc...转载 2018-10-16 21:56:18 · 198206 阅读 · 18 评论 -
机器学习(六)——降维处理原理
(一)降维的基本知识点总结 1、降维方法分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。 (1)线性降维:PCA、ICA、LDA、LFA、LPP (2)非线性降维方法:①基于核函数的方法:KPCA、KICA、KDA ②基于特征值的方法:ISOMAP、LLE、LE、LPP、LTSA、MVU 或者将降维方法如下图分类: 2、降维的作用:(为什么会有这些作用?) (...转载 2018-10-20 16:18:22 · 10046 阅读 · 0 评论 -
机器学习(六)——PCA降维处理
一、PCA主成分分析原理1.降维的作用:(为什么会有这些作用?) (1)降低时间的复杂度和空间复杂度 (2)节省了提取不必要特征的开销 (3)去掉数据集中夹杂的噪音 (4)较简单的模型在小数据集上有更强的鲁棒性 (5)当数据能有较少的特征进行解释,我们可以更好地解释数据,是的我们可以提取知识 (6)实现数据的可视化 2、降维的目的 用来进行特征选择和特征提取。 ①特征选择:选...原创 2018-10-20 16:53:00 · 2432 阅读 · 0 评论 -
机器学习(八)——SVD推荐系统
SVD详解SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、特征压缩(或称数据降维)。SVD可以理解为:将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示,这3个小矩阵描述了大矩阵重要的特性。1.1奇异值分解的几何意义(因公式输入比较麻烦所以采取截图的方式)...转载 2018-10-20 21:52:00 · 2345 阅读 · 0 评论 -
机器学习方法(二)——xgboost(原理篇)
xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid Engine等各个平台上面运行,并且保留了单机...转载 2018-10-14 22:11:22 · 1744 阅读 · 0 评论 -
机器学习——线性回归
线性回归实现由上第一个公式,我们可以假设所有x0x0都等于1,即可得到第二个公式class LinearRegression(): def __init__(self): self.w=None def fit(self,X,y): X=np.insert(X,0,1,axis=1) #加入了一列全为1的X0到X中...转载 2018-10-12 18:49:34 · 238 阅读 · 0 评论 -
机器学习方法(一)——梯度下降法
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T...原创 2018-10-12 10:34:09 · 2868 阅读 · 1 评论 -
机器学习十大常用算法
算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯KNN最近邻算法K均值算法Adaboost 算法神经网络马尔可夫1. 决策树根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。2. 随机森林视频在源数据中随机选取数据,组成几个子集S 矩阵是源数据,...转载 2018-05-18 21:26:40 · 309 阅读 · 0 评论 -
分类算法学习(一)——KNN算法的原理及简单实现
KNN(k-nearest neighbor)是一个简单而经典的机器学习分类算法,通过度量”待分类数据”和”类别已知的样本”的距离(通常是欧氏距离)对样本进行分类。 这话说得有些绕口,且来分解一番: (1)分类问题都是监督(supervised)问题,也就是说一定数量的样本类别是已知的。 (2)既然我们已经有了一批分好类的样本,那么接下来的工作自然应该是通过已知样本训练分类器(通过调节分类器的参数...转载 2018-05-20 17:31:52 · 19162 阅读 · 0 评论 -
分类算法学习(二)——贝叶斯算法的原理及简单实现
1.3、贝叶斯分类的基础——贝叶斯定理 每次提到贝叶斯定理,我心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率...转载 2018-05-20 17:35:25 · 36607 阅读 · 1 评论 -
分类算法总结
数据挖掘的主要任务是分类、聚类、关联分析、预测、时序模式和偏差分析。本文先系统的介绍一下机器学习中的分类算法,主要目录如下:常用分类算法Bayes朴素贝叶斯的优缺点朴素贝叶斯的公式Decision Tree决策树的优缺点决策树公式SVM支持向量机的优缺点支持向量机的公式KNNK近邻的优缺点K近邻的公式Logistic Regression逻辑回归的优缺点逻辑回归的公式逻辑回归的问题神经网络神经网络...转载 2018-05-21 15:37:12 · 3148 阅读 · 0 评论 -
机器学习
目录机器学习及人工智能机器学习分类有监督学习无监督学习线性回归算法线性回归代价函数数学模型最小二乘法算法介绍数学原理高斯分布算法局限性梯度下降算法方向导数梯度数学原理单元算法实现多元算法实现矩阵迹算法随机梯度下降算法高斯-牛顿法泰勒级数展开Hesse矩阵数学原理算法局限性总结1机器学习及人工智能开门见山,上图简单而直观的表明了人工智能,机器学习,深度学习的关系及区别,人工智能范畴最广,机器学习,深...转载 2018-05-21 15:42:09 · 2263 阅读 · 0 评论 -
分类算法学习(三)——逻辑回归算法的原理及简单实现
1、逻辑函数假设数据集有n个独立的特征,x1到xn为样本的n个特征。常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小:而我们希望这样的f(x)能够具有很好的逻辑判断性质,最好是能够直接表达具有特征x的样本被分到某类的概率。比如f(x)>0.5的时候能够表示x被分为正类,f(x)<0.5表示分为反类。而且我们希望f(x)总在[0, 1]之间。有这样的函数吗?sig...原创 2018-05-21 15:56:27 · 14447 阅读 · 0 评论 -
分类算法学习(四)——决策树算法的原理及简单实现
一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)...转载 2018-05-22 19:28:43 · 5799 阅读 · 1 评论 -
关联——Apriori算法详解
一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的...转载 2018-05-28 11:02:31 · 3500 阅读 · 0 评论 -
数据挖掘之Apriori算法详解和Python实现代码分享_python
摘要: 本文讲的是数据挖掘之Apriori算法详解和Python实现代码分享_python, 关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布) 基本概念 1、支持度的定义:support(X教程 云栖大会 Mysql 备案 文档 域名 whois查询 P...转载 2018-08-17 16:22:13 · 13211 阅读 · 2 评论 -
神经网络理论
BP神经网络(Back Propagation Neural Network)为多层前馈神经网络用得比较广泛,该神经网络先通过前向传播取得估计值,后再使用误差进行反向传播通过梯度下降来不断地更新权重从而取得最小误差从中学习得最佳权重系数;从BP神经网络的名字也知道该算法的核心为反向传播算法,神经网络由多个神经元组成神经元结构如下: 如上图每个神经元结构由输入、权重、阈值、激活函数、输出组...转载 2018-05-18 21:16:07 · 787 阅读 · 0 评论