![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 63
Sean_志
哈工大在读硕士
展开
-
Ubuntu下配置Python进行数据处理的环境
刚开始是按照利用python进行数据挖掘这本书配置的,但是后来发现,本书提供的EPD安装包已经无法在官网continumm.io/downloads下找到了,现在的该包已经被Canopy替代了,同样这个包也存在免费版。在网站上下载了免费版Cannopy之后,便开始进行安装。 1.下载下来的是一个后缀为.sh的包,修改了包权限为a+x之后,运行该包 2.运行之后便按原创 2015-09-19 14:20:59 · 1077 阅读 · 0 评论 -
pandas使用感想
Pandas 是 python 的一个用于数据分析处理的库,用过 R 的同学看到里面的 DataFrame 会比较亲切,应该是从 R 那里有不少的借鉴。不过它立足于 python 这样一个全栈式的语言确实还是有着很大的优势。最近在看一个用 R 做机器学习的书籍,看了一些觉得 R 确实是一个让人捉急的语言,即便它看起来也足够简洁,但还是觉得像我这样不断的更换语言却没有一门精通的很是捉急(其实也没那么转载 2015-09-19 15:49:43 · 2995 阅读 · 0 评论 -
数据预处理
一些概念 一.什么是数据: 数据是搜集起来的一个个对象(Objects)和其各种属性(Attributes),一个属性是这个对象的一个特征(Property or Characteristic),全部的特征集合起来就刻画了这个对象. 二.属性值: 数据的属性有多种取值的可能,可以是数字特征也可以是符号特征.数据的属性和属性值是有区别的,同样的属性可以有不同的属性值来表示,比如身高可以用厘米原创 2015-11-27 20:51:17 · 6207 阅读 · 0 评论 -
基于频繁项集的数据挖掘
频繁项集的定义 一.一些概念 商场购物车事务: TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diap原创 2015-11-28 12:38:37 · 2133 阅读 · 0 评论