数据挖掘
alanlonglong
一分耕耘一分收获
展开
-
KNN核心原理
1.将一个已知实例当做一个点,将该实例的所有可观察属性当做该点的坐标A(a1,a2,a3,a4,a5),B,C,D.......2.将预测实例属性映射到坐标Z(z1,z2,z3,z4,z5)3.求预测坐标到每一个已知坐标的距离4.设置K(已知坐标的个数),一般要设置成奇数,因为下面要举手表决5.将3中的距离升序排列选K个,查看对应已知实例的目标,按少数服从多数决定预测目标原创 2018-01-21 18:00:02 · 541 阅读 · 0 评论 -
聚类算法概述
聚类算法的种类:基于划分聚类算法(partition clustering)k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据k-modes:K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度k-protot转载 2018-01-16 10:54:20 · 689 阅读 · 0 评论 -
分类方法概述
单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测转载 2018-01-16 10:48:53 · 5121 阅读 · 0 评论 -
降维方法概括
特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。1. LASSO通过参数缩减达到降维的目的。LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996)) 该方法是一种压缩估计转载 2018-01-16 10:44:31 · 461 阅读 · 0 评论 -
数据变换----将数据转换或同一成适合于挖掘的形式
一光滑:去掉数据的噪声二聚集:对数据进行汇总或聚集三数据泛化:使用概念分层用高层概念替换底层或原始数据四规范化:将数据按比例缩放使之落入一个特定区间1.最小-最大规范化2.Z-score规范化(零均值规范化)3.小数定标规范化其中j是使得max(|v'|)五属性构造(特征构造):可以构造新的属性并添加到属性集当中。以帮助挖掘原创 2018-01-15 11:13:52 · 1238 阅读 · 0 评论 -
数据集成
数据挖掘需要数据集成---合并来自多个数据库的数据一.模式集成和对象匹配确定一个源的ID指的是另一个源的某字段(根据属性的元数据(字段名,含义,数据类型,属性的取值范围))二.属性冗余1.属性是连续数值计算相关系数(皮尔逊积矩系数)N是元组的个数,ai和bi 分别是元组i中A和B的值分别是A和B的均值分别是A和B的标准差是AB叉积的和2.属性是离散数据卡方值设 A有原创 2018-01-14 20:15:27 · 841 阅读 · 0 评论 -
数据清理--数据挖掘必须保证数据完整,一致
数据清理试图填充缺失的值,光滑噪声并识别离群点一. 缺失值 解决办法1.忽略元组(缺失较多属性)2.人工填写缺失值(费时)3.使用一个全局常量填充缺失值(方法简单,但并不可靠)4.使用属性的均值填充缺失值5.使用与给定元组属同一类的所有样本的属性均值6.使用最可能的值填充二.噪声(是被测量的变量的随机误差)光滑数据方法1.分箱(binning):通过考擦数据的原创 2018-01-14 20:11:59 · 587 阅读 · 0 评论 -
描述性数据汇总---提供数据总体行为,有助于识别噪声和离群点
一.度量数据的中心趋势(均值mean、中位数median、众数mode、中列数midrange)在完全对称的数据分布单峰曲线mean=media=mode1.均值mean对应于关系型数据库内部的聚集函数avg(),avg()=sum()/count()是一种代数度量sum()和count()是分布式度量(将数据划分成较小数据集后度量)加权平均2.中位数media(由原创 2018-01-14 10:54:15 · 1353 阅读 · 0 评论 -
KDD数据库知识发现流程
1.数据清理(消除噪声和不一致数据)2.数据集成(多种数据源组合在一起)3.数据选择(从数据库中提取与分析和任务相关的数据)4.数据变换(变换或同一成适合挖掘的形式)5.数据挖掘(用算法提取信息)6.模式评估(根据某种兴趣度度量,识别表示知识的真正有趣模式)7.知识表示(用可视化技术向用户展示)原创 2018-01-14 09:36:32 · 8250 阅读 · 0 评论 -
pandas强大的Python数据分析工具
指数模块 |下一页 |熊猫0.22.0文档 »目录什么是新的安装贡献给大熊猫包概述10分钟到熊猫教程食谱数据结构简介基本的基本功能使用文本数据选项和设置索引和选择数据多索引/高级索引计算工具处理丢失的数据分组方式:split-apply-combine合并,连接和连接重塑和数据透视表时间序列/日期功能时间三角洲分类数据可视化造型IO工具(文本,CSV,HDF5,翻译 2018-01-22 11:45:21 · 3774 阅读 · 0 评论