数据挖掘
九茶
这个作者很懒,什么都没留下…
展开
-
什么是关联分析?
引言:在认识什么是关联分析之前,先了解一下关联分析能用来干什么吧: 示例1:如下是一个超市几名顾客的交易信息。 TID Items 001 Cola, Egg, Ham 002 Cola, Diaper, Beer 003 Cola, Diaper, Beer, Ham 004 Diaper, Beer TID代表交易流水号,Items代原创 2015-06-26 13:06:29 · 14622 阅读 · 0 评论 -
FP-Growth算法之频繁项集的挖掘(python)
前言:关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍。 本文主要介绍从 FP-tree 中提取频繁项集的算法,关于伪代码请查看上面的文章。FP-tree 的构造请见:FP-Growth算法之 FP-tree 的构造(python)。 正文:tree_miner.py\color{aqua}{tree\_miner.py}文件:#coding=utf-8import tre原创 2015-07-04 00:29:51 · 6226 阅读 · 0 评论 -
FP-Growth算法之FP-tree的构造(python)
前言:关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍。 本文主要介绍 FP-tree 的构造算法,关于伪代码请查看上面的文章。上接:FP-Growth算法python实现;下接:FP-Growth算法之频繁项集的挖掘(python)。 正文:tree_builder.py\color{aqua}{tree\_builder.py}文件:#coding=utf-8import原创 2015-07-04 00:18:33 · 7547 阅读 · 2 评论 -
FP-Growth算法python实现
前言:关于关联分析和FP_Growth的介绍请见:什么是关联分析、FP-Growth算法的介绍。本文主要介绍用 python 语言实现 FP_Growth 算法的代码。 正文:FP_Growth项目目录有四个文件: >FP_Growth ▪ __init__.py ▪ tree_builder.py ▪ tree_building.py ▪ tree_miner原创 2015-07-03 22:51:03 · 16408 阅读 · 11 评论 -
我的爬虫史
前言:曾经模仿别人的代码写过几个小爬虫,不过都是皮毛而已,下载一些图片,很简单的爬虫。 现在想系统的学习一下python网络爬虫,包括爬虫多线程、登陆、验证码、分布式、优化等方面。学习的方式是直接爬,一点点深入,遇到问题逐个解决。希望利用博客记录一下自己学习爬虫的过程,放出源代码,希望对后面学习的朋友提供个参考,同时希望通过大家的指正进行查缺补漏。运行环境: python2.7,Eclipse+原创 2015-12-07 16:31:06 · 4015 阅读 · 0 评论 -
新浪微博分布式爬虫分享
代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。 环境、架构:开发语言:Python2.7开原创 2016-03-16 15:38:48 · 25207 阅读 · 5 评论 -
SAS Visual Analytics(VA)安装教程
十月的最后一天,分享一下SAS VA的安装过程。过程有点曲折,老是出现报错,而且因为软件比较大(安装好有三十几 G),重装一次就要两个钟以上。此处分享几个文档(传送门),和我在安装过程遇到的问题,希望对有需要的人有所帮助。 (因为公司机密,具体的安装步骤就不分享了,只分享一下我从网上搜罗的一些资料。) 一、首先在安装 VA 之前要先安装几个依赖软件:Python 、pywin32、Power原创 2015-10-31 23:52:57 · 4951 阅读 · 3 评论 -
R、ggplot2、shiny 汇总
前言:大家应该都知道,ggplot2 和 shiny 都是R语言七大武器之一,虽然它们的能力很流逼,也出来“行走江湖”多年,但是在国内相关的知识分享还是比较少。很多时候遇到问题不得不翻墙搜索,所以尽管自己资历尚浅,但我还是很希望能够将自己的知识点做个总结分享,希望对后来之人有所帮助! 因为最近工作比较忙,没有集中的时间跟精力,所以改变了一下写博客的方式:减小博客篇幅,然后用索引的方式总结、分享一下原创 2015-08-06 23:49:16 · 13911 阅读 · 4 评论 -
决策树之 ID3
ID3 是一种用来构建决策树的算法,它根据信息增益来进行属性选择。 关于决策树,请参见:http://blog.csdn.net/bone_ace/article/details/46299681 此处主要介绍 ID3 算法如何利用信息增益选择属性。 信息增益的计算:信息熵:信息熵,简称“熵”。假定训练集中目标属性为CC,CC 的取值为:C1,C2,…,CmC_1,C_2,…,C原创 2015-06-01 16:00:44 · 4364 阅读 · 0 评论 -
决策树之 C4.5
C4.5 是对 ID3 的一个优化,它根据信息增益率来进行属性选择。 关于决策树,请参见:http://blog.csdn.net/bone_ace/article/details/46299681 关于 ID3,请参见:http://blog.csdn.net/Bone_ACE/article/details/46312215 关于 C4.5C4.5 主要针对 ID3 的缺陷作了一些优化原创 2015-08-13 12:41:24 · 4439 阅读 · 0 评论 -
决策树
在众多分类算法中,决策树应该是最基本的一种算法了,也是相对比较简单的一种算法。 决策树的介绍:首先,什么叫做决策树?决策树用于解决什么样的问题?先看一个例子: 现有某银行客户拖欠贷款的历史数据,如表 3-1。现在一个新客户{ no, married, 80K, ? } 前来申请贷款,请你根据银行的历史数据判断这个人会不会拖欠贷款? 当然,客户最终是否会拖欠贷款,我们是无法100%确定的。但原创 2015-06-01 08:18:09 · 2811 阅读 · 0 评论 -
Apriori算法的介绍
前言:数据挖掘中的关联分析可以分成频繁项集的挖掘和关联规则的生成两个步骤,而Apriori算法是找频繁项集最常用到的一种算法。 关于关联分析和频繁项集请见:什么是关联分析? 中言:我们还是利用购物篮的例子来讲述Apriori算法的思路。 购物篮信息如下: TID Items 001 Cola, Egg, Ham 002 Cola, Diaper, Bee原创 2015-06-27 13:32:24 · 11969 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯算法是一种基于概率统计的分类方法,它主要利用贝叶斯公式对样本事件求概率,通过概率进行分类。以下先对贝叶斯公式做个了解。 贝叶斯公式条件概率:对于事件A、B,若P(B)>0,则事件A在事件B发生的条件下发生的概率为: P(A|B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}贝叶斯公式:将条件概率稍作转化即可得到贝叶斯公式如下: P(A|B)=P(B|A原创 2015-06-05 18:49:22 · 2654 阅读 · 0 评论 -
FP-Growth算法的介绍
引言:在关联分析中,频繁项集的挖掘最常用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端:当数据集很大的时候,需要不断扫描数据集造成运行效率很低。 而FP-Growth算法就很好地解决了这个问题。它的思路是把数据集中的事务映射到一棵FP-Tree上面,再根据这棵树找出频繁项集。FP-Tree的构建过程只需要扫描两次数据集。原创 2015-06-28 10:31:45 · 25916 阅读 · 5 评论