Sean_志-CSDN博客

原创基于频繁项集的数据挖掘

频繁项集的定义一．一些概念商场购物车事务：TIDItems1Bread, Milk2Bread, Diaper, Beer, Eggs3Milk, Diaper, Beer, Coke4Bread, Milk, Diaper, Beer5Bread, Milk, Diap

2015-11-28 12:38:37 2247

原创数据预处理

一些概念一．什么是数据：数据是搜集起来的一个个对象(Objects)和其各种属性(Attributes),一个属性是这个对象的一个特征(Property or Characteristic),全部的特征集合起来就刻画了这个对象．二．属性值：数据的属性有多种取值的可能，可以是数字特征也可以是符号特征．数据的属性和属性值是有区别的，同样的属性可以有不同的属性值来表示，比如身高可以用厘米

2015-11-27 20:51:17 6341

Pandas 是 python 的一个用于数据分析处理的库，用过 R 的同学看到里面的 DataFrame 会比较亲切，应该是从 R 那里有不少的借鉴。不过它立足于 python 这样一个全栈式的语言确实还是有着很大的优势。最近在看一个用 R 做机器学习的书籍，看了一些觉得 R 确实是一个让人捉急的语言，即便它看起来也足够简洁，但还是觉得像我这样不断的更换语言却没有一门精通的很是捉急（其实也没那么

2015-09-19 15:49:43 3194

原创 Python中的collections模块

1.defaultdict （1）该函数可以根据设置不同的参数来对不同的数据结构进行初始化，可以用来计数，例如 s = 'mississippi' d = defaultdict(int) for k in s: d[k] += 1 d.items() [

2015-09-19 14:55:14 578

原创 Python如何调用自己写的包

作为小白刚刚接触python这门语言，因为不知道如何import自己写的.py的文件困扰了很久，最后找了一个办法，就是在python交互界面下导入sys包，然后将自己写的模块存放到一个文件夹中，使用sys.path.append('包的具体位置')然后就可以引用.py文件内的函数了，而且我发现，包一旦导入之后，你再去修改模块内的代码例如添加函数，添加的函数将不会在模块中找到

2015-09-19 14:33:27 4574

原创 Ubuntu下配置Python进行数据处理的环境

刚开始是按照利用python进行数据挖掘这本书配置的，但是后来发现，本书提供的EPD安装包已经无法在官网continumm.io/downloads下找到了，现在的该包已经被Canopy替代了，同样这个包也存在免费版。在网站上下载了免费版Cannopy之后，便开始进行安装。 1.下载下来的是一个后缀为.sh的包，修改了包权限为a+x之后，运行该包 2.运行之后便按

2015-09-19 14:20:59 1160

转载 python环境变量PYTHONPATH

1.把自己编写的python模块添加到PYTHONPATH上要想让python解释器找到自己编写的模块，则该模块必须PYTHONPATH上，否则在导入该模块时会出现找不到该模块的错误，因此必须把所需要的模块的路径添加到PYTHONPATH（一般情况下是把lib/python2.6/site-packages添加到PYTHONPATH）。具体做法如下：a. 假设所需要的python模

2015-01-29 09:28:26 1096

转载 CMake 使用方法

CMake是一个跨平台的安装(编译)工具,可以用简单的语句来描述所有平台的安装(编译过程)。他能够输出各种各样的makefile或者project文件,能测试编译器所支持的C++特性,类似UNIX下的automake。CMake 使用方法CMake的所有的语句都写在一个叫:CMakeLists.txt 的文件中。当CMakeLists.txt文件确定后,可以用ccmake命令对相关

2014-12-20 10:08:41 398

转载贝叶斯公式详解

概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想，一个方法能够专门写出一本书来，肯定很牛逼。后来，我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言 1. 历史

2014-12-12 15:17:42 17363

qiuhuaizhi的专栏