数据挖掘
文章平均质量分 77
傲慢灬
这个人很懒,什么都没有写。(o゜▽゜)o☆
展开
-
R语言 基本语法 附综合性例子
R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。创建向量和矩阵:基本属性:赋值:x1=c(2,4,6,8,0)x2=c(1,3,5,7,9)向量长度:length(x1)变量类型:mode(x1)组成二维数组:(Row连接)rbind(x1,原创 2016-11-03 02:53:04 · 3447 阅读 · 0 评论 -
曼哈顿距离,欧式距离,明式距离,切比雪夫距离区别
根据我浅薄的知识,以及粗浅的语言,随意总结一下。1.曼哈顿距离曼哈顿距离又称马氏距离(Manhattan distance),还见到过更加形象的,叫出租车距离的。具体贴一张图,应该就能明白。上图摘自维基百科,红蓝黄皆为曼哈顿距离,绿色为欧式距离。2.欧式距离欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric),以空间为基准的两点之间最短距离,与原创 2016-09-23 03:23:20 · 38475 阅读 · 14 评论 -
K-means、K-means ++、K-modes和K-prototype聚类算法简述 附Python代码
K-meansK-means属于聚类算法中最简单的一种,也是一种无监督学习的算法。步骤:按上图所示,具体步骤如下:1. 设定初始簇的个数,上图为22. 使用欧式距离对簇进行分类,与最近的簇为一类,如上图所示,分为红蓝两类3. 对已分类的所有数据区均值,取X/Y坐标的平均值,设为新的中心点,如上图c-d的操作4. 重新对簇进行分类(如步骤2),如上原创 2017-07-07 16:25:04 · 18880 阅读 · 2 评论 -
基于SVM的股票预测 Python实现 附Github
SVM 支持向量机原理就不赘述了,其余的文章有讲过。SVM是一种十分优秀的分类算法,使用SVM也能给股票进行一定程度上的预测。核心因为是分类算法,因此不像ARIMA一样预测的是时序。分类就要有东西可分,因此将当日涨记为1,跌记为0,作为分类的依据。使用历史数据作为训练数据。处理数据:1.股票历史数据来源于yahoo_finance api,获取其中Open,Cl原创 2016-12-30 21:32:25 · 39376 阅读 · 6 评论 -
基于ARIMA的股票预测 Python实现 附Github
ARIMA全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)。核心函数是ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它原创 2016-12-23 04:51:12 · 23384 阅读 · 1 评论 -
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统(二)
Update V2.0增大了数据量,从80条数据,60训练数据,20测试数据,到160条数据,120训练数据,40测试数据。因为数据源原因,160条数据之后不是GBK编码,无法识别,因此最多160条。依旧可以看出各个算法对于垃圾短信系统的特点,NB时间消耗短,准确率较高,因此性价比高,SVM虽然慢,但是准确率惊人,KNN永远都不会把正常短信当成垃圾短信。基于80条数据,60训练原创 2016-12-18 13:02:34 · 2473 阅读 · 0 评论 -
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统 附代码
垃圾短信过滤系统一个课程的结课设计,挺好玩的。数据处理:短信数据来源于UCI machine learning repository,可以到以下网址去下载:https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection计算机不可能直接识别文字,并在其基础上进行计算,因此,我们的文字将要转换成可计算的数字,比如,向量。步原创 2016-12-12 18:01:45 · 5547 阅读 · 1 评论 -
SVM 基本概念及Python实现方式
SVM(support vector machine)支持向量机:注意:本文不准备提到数学证明的过程,一是因为有一篇非常好的文章解释的非常好:http://blog.csdn.net/v_july_v/article/details/7624837,另一方面是因为我只是个程序员,不是搞数学的(主要是因为数学不好。),主要目的是将SVM以最通俗易懂,简单粗暴的方式解释清楚。线性分类:原创 2016-11-16 09:55:18 · 16757 阅读 · 4 评论 -
决策树 (Decision Tree) 进阶应用 CART剪枝方法及Python实现方式
决策树 Decision TreeC5.0先简述下C5.0,C5.0是一个商业软件,对于公众是不可得到的。它是在C4.5算法做了一些改进。比之C45,减少了内存,使用更少的规则集,并且准确率更高。CART:Classification and Regression Trees与C4.5算法是非常相似的,也只是如何选取节点的区别,但是CART支持预测连续的值(回归)原创 2016-11-16 03:48:50 · 17542 阅读 · 2 评论 -
K-Nearest Neighbor(KNN) 最邻近分类算法及Python实现方式
K-Nearest Neighbor 最邻近分类算法:简称KNN,最简单的机器学习算法之一,核心思想俗称“随大流”。是一种分类算法,基于实例的学习(instance-based learning)和懒惰学习(lazy learning)。懒惰学习:指的是在训练是仅仅是保存样本集的信息,直到测试样本到达是才进行分类决策。核心想法:在距离空间里,如果一个样本的最接近的k个邻居里原创 2016-11-12 05:40:16 · 17221 阅读 · 3 评论 -
决策树 (Decision Tree) 原理简述及相关算法(ID3,C4.5)
Decision Tree 决策树:决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 下面来看个范例,就能很快理解原创 2016-11-11 04:11:06 · 23981 阅读 · 2 评论 -
频繁模式和关联规则原理与简述
频繁模式和关联规则:“啤酒与尿布”故事:这是一个几乎被举烂的例子,“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭原创 2016-10-13 09:14:15 · 6024 阅读 · 0 评论 -
卡方检验的原理作用以及Python、R语言的实现方式
卡方检验(chi-square test)或称X^2检验,主要作用是判定实际统计数据是否符合期望值,之后便可以演变出各种用法,例如:特征选择,变量各类的出现概率,变量是否相互有关联等。主要公式:右侧的X^2代表卡方值,卡方值=[(观测值O-期望值E)/期望值E]所有的组别的累加。例子:假设一果农场,今年水果产量记为观察值,往年产量记为期望值,所生原创 2016-10-07 08:40:11 · 26999 阅读 · 5 评论 -
DBSCAN 具有噪声的基于密度的聚类算法简述 附Python代码
DBSCAN DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法。基本概念:所需参数:半径:EpsEps半径内指定的数目(阈值):MinPts数据点分为三:1. 核心点:在半径Eps内含有超过MinPts数目的点原创 2017-07-21 15:46:36 · 9193 阅读 · 1 评论