数据挖掘基础算法
文章平均质量分 79
数据挖掘是机器学习的基础,这里分享些数据挖掘的基础算法,仅做入门使用,望能给大家带来更多的想法、、、
傲慢灬
这个人很懒,什么都没有写。(o゜▽゜)o☆
展开
-
DBSCAN 具有噪声的基于密度的聚类算法简述 附Python代码
DBSCAN DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法。基本概念:所需参数:半径:EpsEps半径内指定的数目(阈值):MinPts数据点分为三:1. 核心点:在半径Eps内含有超过MinPts数目的点原创 2017-07-21 15:46:36 · 9195 阅读 · 1 评论 -
Tensorflow 入门一 (安装配置,会话控制,变量常量,传入值)
Tensorflow:TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,主要是深度神经网络模型。也是一时兴起开始学习这玩意,走到哪,博客写到哪里,全当记录。主要参考资料一方面是0.8.0版极客学院翻译版资料,另一方面是油管上周莫烦的视频资料(附上地址:https://www.youtube.com/user/MorvanZhou/featured)原创 2016-10-26 09:41:39 · 3350 阅读 · 0 评论 -
激励函数简介 Tensorflow最简单的三层神经网络及matplotlib可视化 附激励函数常见类型
激励函数:有人说翻译成“激活函数”(activation function)会更好,因为主要作用是分割数据,判断该“神经”是否被激活。比如说,当你判断面前的动物是否是一只猫的时候,你会从各个部分去判断。比如眼睛,当你觉得确实像猫的眼睛时,判断眼睛的神经数值会特别高,如果觉得比较像,则会相对低一点,在神经网络算法中,可以说,激励函数就是分割这个神经判断是与否的准则。某些数据是可以被线性分割的原创 2016-10-31 02:39:34 · 10564 阅读 · 0 评论 -
Tensorflow 自带可视化Tensorboard使用方法 附项目代码
Tensorboard:如何更直观的观察数据在神经网络中的变化,或是已经构建的神经网络的结构。上一篇文章说到,可以使用matplotlib第三方可视化,来进行一定程度上的可视化。然而Tensorflow也自带了可视化模块Tensorboard,并且能更直观的看见整个神经网络的结构。上面的结构图甚至可以展开,变成:使用:结构图:with tensorflo原创 2016-11-02 09:57:20 · 89022 阅读 · 18 评论 -
Tensorflow MNIST机器学习入门 分类学习
MNIST:MNIST是一个很出名的手写数字数据库,据说是美国中学生手写的数字,包含28*28的图片和与之对应的Tag。我们的目标就是使用Tensorflow来对MNIST的数据进行处理,已达到自行识别图片中数字的目的。(感觉有点像识别验证码、、、)原理:想要知道具体原理的建议直接去官网,讲的肯定比我好多了。中文:http://wiki.jikexueyuan.com/原创 2016-11-03 11:28:49 · 1518 阅读 · 0 评论 -
Tensorflow Overfitting过拟合解决方法 Dropput()使用方法
Overfitting过拟合所谓过拟合,就是指把学习进行的太彻底,把样本数据的所有特征几乎都习得了,于是机器学到了过多的局部特征,过多的由于噪声带来的假特征,造成模型的“泛化性”和识别正确率几乎达到谷点,于是你用你的机器识别新的样本的时候会发现就没几个是正确识别的。如上图所示,左边是Underfitting欠拟合,一根直线,根本无法区分数据,或是与理想区分度误差太大。中间图片,原创 2016-11-10 02:39:04 · 8293 阅读 · 1 评论 -
TensorFlow不同版本引起的错误
最近有开始搞点Tensorflow,但是突然发现以前有点API没用了,特此转载,用来记录,方便回忆。转自:http://blog.csdn.net/s_sunnyy/article/details/70999462前4个是 V0.11 的API 用在 V1.0 的错误1. AttributeError: 'module' object has no attrib转载 2017-07-07 16:48:22 · 2133 阅读 · 0 评论 -
频繁模式和关联规则原理与简述
频繁模式和关联规则:“啤酒与尿布”故事:这是一个几乎被举烂的例子,“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭原创 2016-10-13 09:14:15 · 6026 阅读 · 0 评论 -
决策树 (Decision Tree) 原理简述及相关算法(ID3,C4.5)
Decision Tree 决策树:决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 下面来看个范例,就能很快理解原创 2016-11-11 04:11:06 · 23987 阅读 · 2 评论 -
K-Nearest Neighbor(KNN) 最邻近分类算法及Python实现方式
K-Nearest Neighbor 最邻近分类算法:简称KNN,最简单的机器学习算法之一,核心思想俗称“随大流”。是一种分类算法,基于实例的学习(instance-based learning)和懒惰学习(lazy learning)。懒惰学习:指的是在训练是仅仅是保存样本集的信息,直到测试样本到达是才进行分类决策。核心想法:在距离空间里,如果一个样本的最接近的k个邻居里原创 2016-11-12 05:40:16 · 17224 阅读 · 3 评论 -
决策树 (Decision Tree) 进阶应用 CART剪枝方法及Python实现方式
决策树 Decision TreeC5.0先简述下C5.0,C5.0是一个商业软件,对于公众是不可得到的。它是在C4.5算法做了一些改进。比之C45,减少了内存,使用更少的规则集,并且准确率更高。CART:Classification and Regression Trees与C4.5算法是非常相似的,也只是如何选取节点的区别,但是CART支持预测连续的值(回归)原创 2016-11-16 03:48:50 · 17546 阅读 · 2 评论 -
SVM 基本概念及Python实现方式
SVM(support vector machine)支持向量机:注意:本文不准备提到数学证明的过程,一是因为有一篇非常好的文章解释的非常好:http://blog.csdn.net/v_july_v/article/details/7624837,另一方面是因为我只是个程序员,不是搞数学的(主要是因为数学不好。),主要目的是将SVM以最通俗易懂,简单粗暴的方式解释清楚。线性分类:原创 2016-11-16 09:55:18 · 16759 阅读 · 4 评论 -
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统 附代码
垃圾短信过滤系统一个课程的结课设计,挺好玩的。数据处理:短信数据来源于UCI machine learning repository,可以到以下网址去下载:https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection计算机不可能直接识别文字,并在其基础上进行计算,因此,我们的文字将要转换成可计算的数字,比如,向量。步原创 2016-12-12 18:01:45 · 5553 阅读 · 1 评论 -
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统(二)
Update V2.0增大了数据量,从80条数据,60训练数据,20测试数据,到160条数据,120训练数据,40测试数据。因为数据源原因,160条数据之后不是GBK编码,无法识别,因此最多160条。依旧可以看出各个算法对于垃圾短信系统的特点,NB时间消耗短,准确率较高,因此性价比高,SVM虽然慢,但是准确率惊人,KNN永远都不会把正常短信当成垃圾短信。基于80条数据,60训练原创 2016-12-18 13:02:34 · 2475 阅读 · 0 评论 -
基于ARIMA的股票预测 Python实现 附Github
ARIMA全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)。核心函数是ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它原创 2016-12-23 04:51:12 · 23387 阅读 · 1 评论 -
基于SVM的股票预测 Python实现 附Github
SVM 支持向量机原理就不赘述了,其余的文章有讲过。SVM是一种十分优秀的分类算法,使用SVM也能给股票进行一定程度上的预测。核心因为是分类算法,因此不像ARIMA一样预测的是时序。分类就要有东西可分,因此将当日涨记为1,跌记为0,作为分类的依据。使用历史数据作为训练数据。处理数据:1.股票历史数据来源于yahoo_finance api,获取其中Open,Cl原创 2016-12-30 21:32:25 · 39379 阅读 · 6 评论 -
K-means、K-means ++、K-modes和K-prototype聚类算法简述 附Python代码
K-meansK-means属于聚类算法中最简单的一种,也是一种无监督学习的算法。步骤:按上图所示,具体步骤如下:1. 设定初始簇的个数,上图为22. 使用欧式距离对簇进行分类,与最近的簇为一类,如上图所示,分为红蓝两类3. 对已分类的所有数据区均值,取X/Y坐标的平均值,设为新的中心点,如上图c-d的操作4. 重新对簇进行分类(如步骤2),如上原创 2017-07-07 16:25:04 · 18883 阅读 · 2 评论 -
卡方检验的原理作用以及Python、R语言的实现方式
卡方检验(chi-square test)或称X^2检验,主要作用是判定实际统计数据是否符合期望值,之后便可以演变出各种用法,例如:特征选择,变量各类的出现概率,变量是否相互有关联等。主要公式:右侧的X^2代表卡方值,卡方值=[(观测值O-期望值E)/期望值E]所有的组别的累加。例子:假设一果农场,今年水果产量记为观察值,往年产量记为期望值,所生原创 2016-10-07 08:40:11 · 27002 阅读 · 5 评论