2013年05月_爱知菜

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创提高分类器准确率的几种方法总结（装袋，提升，随机森林）

一、装袋对样本空间 D 进行放回抽样，得到样本空间的一个子集 Di，由Di得到一个分类器Mi。不断的重复上述过程，就可以得到一系列分类器 M1,M2,M3....Mi ，在分类时用这些分类器进行投票来决定分类。二、提升和AdaBoost对长度为d的训练样本空间 D 的每一个元组分配一个初始的权限 1/d，然后开始一个迭代的过程：根据元组的权限来作为抽取概率

2013-05-30 12:09:05 11098

原创判断关联规则是否可靠-提升度 lift，KULC，IR

在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。关联规则（计算机游戏，游戏机游戏）支持度为0.4，看似很高，但其实这个关联规则是一个误导。在用户购买了计算机游戏后有（4000÷6000）0.667 的概率的去购买游戏机游戏，而在没有任何前提条件时，用户反而有（7500÷10000）0.75的概率去购买游戏机游戏，

2013-05-28 16:23:25 13967 1

原创详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)在这一个节我们将谈一谈算法的优化。一构造树的优化方法:1. 垂直数据格式中,diffset法,这些方法在.《数据挖掘概念与技术》这本书都有提到但都有缺陷，不善于发现长模式（长模式是什么意思？谁来告诉我？）。总之可能用的比较少。2. 在生成条件模式基的时候，有一种优化算法很实用，叫F

2013-05-27 12:00:58 2441

原创详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)上一节我们讲到根据一颗树的情况来判断是否有必要进行进一步的挖掘,这里有一个重要的概念叫单路径树，请看下面三张图：图1 图2 图3它们分别是beer ，chips和 milk 的条件模式子树，当对最小支持度为3的关联规则进行挖掘时其中图1

2013-05-26 15:02:02 4435

原创详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)上一节简单讲了下FP树的生成,在这一节我将描述FP树的挖掘过程.首先我们回顾一下要挖掘的特征项及样本空间:items=('chips','eggs','bread','milk','beer','popcorn','butter')sample=[ ['milk','eggs','b

2013-05-26 14:58:30 3698 3

原创详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)fptree进行数据挖掘的第一步是生成fptree,具体的生成过程大家在网上和书上都能找到详尽的解释,这里我就不再赘述了。不过大家可能会产生一个问题：为什么要对每一条样本记录按照其中特征项支持度从大到小排序一下，才能生成fp树呢？请看下图:这张图是将我的每一条样本记录按照其中特征项支持

2013-05-26 13:40:34 7881 2

原创 python源码剖析读书笔记

1.多个str合并时不要用+号,应该用list的join函数2.由于python内部大量使用dict 来对应变量名和值,所以对键值为 str 类型的 key-value查找有专门的优化(比较方式和省去了通用的错误处理 ),dict的实现基于散列表

2013-05-26 12:28:25 1210

原创 python 使用装饰器模式保证带有默认值的参数不被修改默认值

import copydef freshdefaults(f): d=f.__defaults__ def refresher(*args,**kwds): f.__defaults__=copy.deepcopy(d) return f(*args,**kwds) return refresher@freshdefaultsdef

2013-05-26 12:21:15 2058

原创详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)程序使用PYTHON3.2实现，要生成每一步树的图片，请安装一个绘图库PIL(Python Image Library)源代码下载地址:点击打开链接打开源代码后可以在sample.py找到样本如下:items=('chips','eggs','bread','milk','beer','pop

2013-05-24 15:32:12 4598 1

原创 IIS7.5 部署asp.net 3.5 mvc2.0 网站关键

1. 通配符映射 * 映射到 aspnet_iisapi.dll2. 应用程序池托管管道模式经典

2013-05-16 11:26:15 1815

原创 python3.2打开utf8的txt文件时BOM问题的解决办法

在windows上使用open打开utf-8编码的txt文件时开头会有一个多余的字符它叫BOM,是用来声明编码等信息的,但python会把它当作文本解析解决办法:open的encoding参数for line in open('1.txt', encoding='utf_8_sig' ):

2013-05-13 16:46:29 4549 9

原创数据挖掘几个入门级的算法的总结（优缺点）

监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络非监督学习算法的代表有聚类算法和特征矩阵可以从以下几个方面来比较算法：1.支持增量式训练：在收录新的数据后能自行调整，修正判断，提高准确率而不需要重新训练2.特征组合：能够响应特征组合，作出更精确的判断3.是否是黑盒技术：指算法的中间过程是否易于理解，决策树

2013-05-10 11:03:23 5416