数据挖掘
小草dym
这个作者很懒,什么都没留下…
展开
-
python的集合类型——字符串、列表、元组、字典
集合类型1、字符串下标索引所谓下标,就是编号,就好比超市中的存储柜的编号,通过这个编号就能找到相应的存储空间字符串实际上就是字符数组,所以也支持下标索引如果有字符串:name = 'abcdef',在内存中的实际存储如下:切片(分片)切片是指对操作的对象截取其中一部分的操作。字符串、列表、元组都支持切片操作。切片的语法:[起始:结束:步长]步...原创 2019-03-14 13:19:39 · 1284 阅读 · 0 评论 -
数据的聚类(cluster)|| 关联规则 || 回归
分类与聚类的比较聚类分析是研究如何在没有训练的条件下把样本划分为若干类。 在分类中,已知存在哪些类,即对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。 聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度...原创 2019-05-10 13:45:51 · 2434 阅读 · 0 评论 -
数据的预处理 || 隐私保护 || 云计算 || Always start with simple ones.
Data Preprocessing聚类与分类的主要区别在于:数据有无标签GIGO是什么的缩写: Garbage In Garbage OutInternet PrivacyPrivacy Protection云计算(Cloud Computing)并行计算(Parallel Computing)...原创 2019-05-10 16:56:14 · 436 阅读 · 0 评论 -
以不同的维度去看待问题
下面的两个例子有歧义。原因在于缺失时间维度要以不同的维度去看待问题 || 不能以偏概全数据挖掘针对的是有规律可循的事物。而不是完全随机的事物...原创 2019-05-10 17:26:06 · 825 阅读 · 0 评论 -
数据预处理——数据清洗、异常值与重复数据的检测
数据预处理(Data Preprocessing)Where are data from?Why Data Preprocessing?How to handle missing data?Outliers 注:异常点(Anomaly) vs. 离群点(Outlier)是不一样的怎么分析离群点(Lo...原创 2019-05-10 19:34:45 · 3211 阅读 · 0 评论 -
离群点检测算法——LOF(Local Outlier Factor)
异常检测异常检测的实质是寻找观测值和参照值之间有意义的偏差。数据库中的数据由于各种原因常常会包含一些异常记录,对这些异常记录的检测和解释有很重要的意义。异常检测目前在入侵检测、金融欺诈、股票分析等领域都有着比较好的实际应用效果。离群点检测离群点检测是异常检测中最常用的方法之一。离群点检测的主要目的是为了检测出那些与正常数据行为或特征属性差别较大的异常数据或行为,在一些文献中,这...原创 2019-05-10 20:04:20 · 4289 阅读 · 0 评论 -
类型转换与采样 || SMOTE算法
Data TransformationAttribute TypesType Conversion 复杂的编码:简单的编码:SamplingImbalanced DatasetsSMOTE算法SMOTE(Synthetic Minority Oversampling Technique)...原创 2019-05-10 20:27:08 · 567 阅读 · 0 评论 -
类别不平衡问题 —— 各种评估指标
类别不平衡问题在二分类问题中,通常假设正负类别相对均衡(混淆矩阵),然而实际应用中类别不平衡的问题,如100, 1000, 10000倍的数据偏斜是非常常见的,比如疾病检测中未患病的人数远超患病的人数,产品质量检测中合格产品数量远超不合格产品等。在检测信用卡欺诈问题中,同样正例的数目稀少,而且正例的数量会随着时间和地点的改变而不断变化,分类器要想在不断变化的正负样本中达到好的检测效果是非常...转载 2019-05-10 20:55:26 · 3997 阅读 · 1 评论 -
数据描述与可视化
标准化注:均值的意义不是很大,容易受到特别大或特别小的数的严重影响。使得得出的结果没有代表性,不够准确Data Descriptionχ2的测试下象棋与不下象棋的人数之比为1:4,下图红色代表假设下象棋与喜欢科幻小说不相关,这时相应的人数之比也应该是1:4数据的可视化(Data Visualization)高维数据的处理——Box...原创 2019-05-11 11:35:06 · 980 阅读 · 0 评论 -
数据的分类问题
混淆矩阵原创 2019-05-10 13:28:02 · 1534 阅读 · 0 评论 -
数据挖掘的定义
介绍的IBM公司的商用数据分析软件的名称:SPSS原创 2019-05-10 13:01:47 · 2095 阅读 · 0 评论 -
从数据到知识
大数据的应用: ...原创 2019-05-10 12:46:12 · 259 阅读 · 0 评论 -
Python的安装 || python介绍
Python的安装1、Python安装比较简单,只需要双击安装即可,安装比较快(window)2、anaconda同样是双击安装,但是安装过程的时间比较长,需要很多依赖项(window)Python IDE的安装1、eclipse插件安装一般不采用:Help—> eclipse marketplace—> pydev(较慢)插件包:加压拷贝到eclipse的dr...原创 2019-03-11 22:11:06 · 271 阅读 · 0 评论 -
数据挖掘
数据挖掘...原创 2019-03-16 16:19:27 · 98 阅读 · 0 评论 -
Python的注释及乱码 || 变量及类型
Python的注释及乱码1、单行注释:以#开头,#右边的所有东西当做说明,而不是真正要执行的程序,起辅助说明作用 2、多行注释:’’’多行注释’’’可以写多行的功能说明 3、Python乱码问题 由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时...原创 2019-03-12 16:07:47 · 547 阅读 · 0 评论 -
Python的可变类型和不可变类型
可变类型与不可变类型1、可变类型,值可以改变:列表 list字典 dictset (没有value的字典)2、不可变类型,值不可以改变:数值类型 int, long, bool, float字符串 str元组 tuple...原创 2019-03-18 17:59:38 · 150 阅读 · 0 评论 -
Python的逻辑判断和循环 || 打印九九乘法表
Python的逻辑判断和循环1、if elif else条件判断 计算机之所以能做很多自动化的任务,因为它可以自己做条件判断。if <条件判断1>:<执行1>elif <条件判断2>:<执行2>elif <条件判断3>:<执行3>else:<...原创 2019-03-13 17:26:14 · 393 阅读 · 1 评论 -
python的函数的定义与调用
函数的定义与调用1、定义函数定义函数的格式如下:def函数名(): 代码注:python文件名一定不要取为test.py 标出的两个文件,虽为空文件,但一定不要去删除 2.不定长参数有时可能需要一个函数能处理比当初声明时更多的参数。这些参数叫做不定长参数,声明时不会命名。加了星号(*)的变量args会存放所有未命名的变量...原创 2019-03-29 22:25:51 · 1537 阅读 · 0 评论 -
大数据概念
大数据计算技术大数据概念大数据计算体系数据采集与建模大数据分析算法大数据处理技术数据可视化Hadoop计算体系HDFS/HBase存储架构MapReduce计算模型图并行计算框架流计算内存计算大数据概念数据是什么?数据科学是什么?大数据基本属性是什么?什么是大数据(Big Data)? ...原创 2019-04-09 22:54:03 · 866 阅读 · 0 评论 -
查找数据挖掘的相关资料
原创 2019-05-10 12:21:04 · 169 阅读 · 0 评论 -
特征选择
Feature SelectionClass Distributions熵(Entropy)科学技术上用来描述、表征系统不确定程度的函数。特征选择方法之信息增益(Information Gain)设计分类系统的时候,一个很重要的环节便是特征选择,面对成千上万上百万的特征,如何选取有利于分类的特征呢?信息增益(Information ...原创 2019-05-11 19:38:01 · 341 阅读 · 0 评论