自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(12)
  • 资源 (9)
  • 收藏
  • 关注

原创 提高 分类器 准确率的几种方法总结(装袋,提升,随机森林)

一、装袋对样本空间 D 进行 放回抽样,得到样本空间的一个子集 Di,由Di得到一个 分类器Mi。不断的重复上述过程,就可以得到一系列分类器 M1,M2,M3....Mi ,在分类时用这些分类器进行投票来决定分类。二、提升和AdaBoost对长度为d的训练样本空间 D 的每一个元组分配一个初始的权限 1/d, 然后开始一个迭代的过程:根据元组的权限来作为抽取概率

2013-05-30 12:09:05 11098

原创 判断关联规则是否可靠-提升度 lift,KULC,IR

在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。关联规则(计算机游戏,游戏机游戏) 支持度为0.4,看似很高,但其实这个关联规则是一个误导。在用户购买了计算机游戏后有 (4000÷6000)0.667 的概率的去购买游戏机游戏,而在没有任何前提条件时,用户反而有(7500÷10000)0.75的概率去购买游戏机游戏,

2013-05-28 16:23:25 13967 1

原创 详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)在这一个节我们将谈一谈算法的优化。一 构造树的优化方法:1. 垂直数据格式中,diffset法,这些方法在.《数据挖掘 概念与技术》这本书都有提到但都有缺陷,不善于发现长模式(长模式是什么意思?谁来告诉我?)。总之可能用的比较少。2. 在生成条件模式基的时候,有一种优化算法很实用,叫F

2013-05-27 12:00:58 2441

原创 详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)上一节我们讲到根据一颗树的情况来判断是否有必要进行进一步的挖掘,这里有一个重要的概念叫单路径树,请看下面三张图:      图1   图2 图3它们分别是beer ,chips和 milk 的条件模式 子树,当对最小支持度为3的关联规则进行挖掘时其中图1

2013-05-26 15:02:02 4435

原创 详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)上一节简单讲了下FP树的生成,在这一节我将描述FP树的挖掘过程.首先我们回顾一下要挖掘的特征项及样本空间:items=('chips','eggs','bread','milk','beer','popcorn','butter')sample=[ ['milk','eggs','b

2013-05-26 14:58:30 3698 3

原创 详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)fptree进行数据挖掘的第一步是生成fptree,具体的生成过程大家在网上和书上都能找到详尽的解释,这里我就不再赘述了。不过大家可能会产生一个问题:为什么要对每一条样本记录按照其中特征项支持度从大到小排序一下,才能生成fp树呢?请看下图:这张图是将我的每一条样本记录按照其中特征项支持

2013-05-26 13:40:34 7881 2

原创 python源码剖析 读书笔记

1.多个str合并时不要用+号,应该用list的join函数2.由于python内部大量使用dict 来对应 变量名和值,所以对键值为 str 类型的 key-value查找有专门的优化(比较方式和省去了通用的错误处理 ),dict的实现基于散列表

2013-05-26 12:28:25 1210

原创 python 使用装饰器模式 保证带有默认值的参数不被修改默认值

import copydef freshdefaults(f): d=f.__defaults__ def refresher(*args,**kwds): f.__defaults__=copy.deepcopy(d) return f(*args,**kwds) return refresher@freshdefaultsdef

2013-05-26 12:21:15 2058

原创 详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)

详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)程序使用PYTHON3.2实现,要生成每一步树的图片,请安装一个绘图库PIL(Python Image Library)源代码下载地址:点击打开链接打开源代码后可以在sample.py找到样本如下:items=('chips','eggs','bread','milk','beer','pop

2013-05-24 15:32:12 4598 1

原创 IIS7.5 部署asp.net 3.5 mvc2.0 网站 关键

1. 通配符映射 * 映射到 aspnet_iisapi.dll2. 应用程序池 托管管道模式 经典

2013-05-16 11:26:15 1815

原创 python3.2打开utf8的txt文件时BOM问题的解决办法

在windows上使用open打开utf-8编码的txt文件时开头会有一个多余的字符它叫BOM,是用来声明编码等信息的,但python会把它当作文本解析解决办法:open的encoding参数for line in open('1.txt', encoding='utf_8_sig' ):

2013-05-13 16:46:29 4549 9

原创 数据挖掘几个入门级的算法的总结(优缺点)

监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络非监督学习算法的代表有聚类算法和特征矩阵可以从以下几个方面来比较算法:1.支持增量式训练:在收录新的数据后能自行调整,修正判断,提高准确率而不需要重新训练2.特征组合:能够响应特征组合,作出更精确的判断3.是否是黑盒技术:指算法的中间过程是否易于理解,决策树

2013-05-10 11:03:23 5416

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除