博客专栏  >  编程语言   >  小算法大本营

小算法大本营

算法博文集合

关注
7 已关注
22篇博文
  • scrapy_redis去重优化(已有7亿条数据),附Demo福利

    背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redi...

    2016-11-10 14:48
    10702
  • 基于Redis的Bloomfilter去重(附Python代码)

    前言:“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,...

    2016-11-10 12:32
    8514
  • FP-Growth算法之频繁项集的挖掘(python)

    前言:关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍。 本文主要介绍从 FP-tree 中提取频繁项集的算法,关于伪代码请查看上面的文章。FP-tree 的构造请见:FP-G...

    2015-07-04 00:29
    4271
  • FP-Growth算法之FP-tree的构造(python)

    前言:关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍。 本文主要介绍 FP-tree 的构造算法,关于伪代码请查看上面的文章。上接:FP-Growth算法python实现;下接...

    2015-07-04 00:18
    4815
  • FP-Growth算法python实现

    前言:关于关联分析和FP_Growth的介绍请见:什么是关联分析、FP-Growth算法的介绍。本文主要介绍用 python 语言实现 FP_Growth 算法的代码。 正文:FP_Growth项目...

    2015-07-03 22:51
    8295
  • python实现二叉树和它的七种遍历

    介绍:树是数据结构中非常重要的一种,主要的用途是用来提高查找效率,对于要重复查找的情况效果更佳,如二叉排序树、FP-树。另外可以用来提高编码效率,如哈弗曼树。 代码:用python实现树的构造和...

    2015-07-02 01:02
    18974
  • FP-Growth算法的介绍

    引言:在关联分析中,频繁项集的挖掘最常用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端:当数据集很大的时候,需要不断扫描数据集...

    2015-06-28 10:31
    7319
  • Apriori算法的介绍

    前言:数据挖掘中的关联分析可以分成频繁项集的挖掘和关联规则的生成两个步骤,而Apriori算法是找频繁项集最常用到的一种算法。 关于关联分析和频繁项集请见:什么是关联分析? 中言:我们还是利用...

    2015-06-27 13:32
    2596
  • 朴素贝叶斯

    朴素贝叶斯算法是一种基于概率统计的分类方法,它主要利用贝叶斯公式对样本事件求概率,通过概率进行分类。以下先对贝叶斯公式做个了解。 贝叶斯公式条件概率:对于事件A、B,若P(B)>0,则事件A在事件B...

    2015-06-05 18:49
    1532
  • 哲学家就餐问题

    问题描述:五个哲学家(A~E)围着一张圆桌就餐,他们每个人面前都有一盘通心粉。由于通心粉很滑,所以需要两只筷子才能夹住,但每两个盘子之间只放着一只筷子,如下图。 哲学家只有两个动作:要么就餐,要么思...

    2015-06-04 15:42
    2000
  • 决策树之 C4.5

    C4.5 是对 ID3 的一个优化,它根据信息增益率来进行属性选择。 关于决策树,请参见:http://blog.csdn.net/bone_ace/article/details/46299681...

    2015-08-13 12:41
    2848
  • 决策树之 ID3

    ID3 是一种用来构建决策树的算法,它根据信息增益来进行属性选择。 关于决策树,请参见:http://blog.csdn.net/bone_ace/article/details/46299681...

    2015-06-01 16:00
    2003
  • 决策树

    在众多分类算法中,决策树应该是最基本的一种算法了,也是相对比较简单的一种算法。 决策树的介绍:首先,什么叫做决策树?决策树用于解决什么样的问题?先看一个例子: 现有某银行客户拖欠贷款的历史数据...

    2015-06-01 08:18
    1833
  • 凸包问题的五种解法

    前言:首先,什么是凸包? 假设平面上有p0~p12共13个点,过某些点作一个多边形,使这个多边形能把所有点都“包”起来。当这个多边形是凸多边形的时候,我们就叫它“凸包”。如下图: 然后,什么是凸包...

    2015-05-29 17:58
    21897
  • 计算机如何实现开根号?

    今天看到一个问题:计算机如何实现开根号? 如何求一个数字的算术平方根(又叫开根号,或者开方)? 大家普遍都是用计算器直接计算的,对于程序员来说,就是调用sqrt()方法。但是其内部又是怎么实现的呢?下...

    2015-05-20 14:58
    3218
  • 马踏棋盘之贪心算法优化

    问题描述: 曾经用简单的深度优先搜索方法、递归的形式对马踏棋盘进行搜索,运行效率不甚理想。(博客见马踏棋盘之递归实现)。 所以现在用贪心算法将其优化了一下。 问题解析: 主要的思想没有变,还是用深...

    2014-11-28 23:43
    13203
  • 八皇后之回溯法解决

    问题描述: 要在8*8的国际象棋棋盘中放8个皇后,使任意两个皇后都不能互相吃掉。规则是皇后能吃掉同一行、同一列、同一对角线的棋子。如下图即是一种方案:

    2014-11-23 22:09
    7313
  • 迷宫问题

    问题描述:

    2014-11-19 16:17
    2246
  • 约瑟夫环

    问题描述:

    2014-11-17 18:07
    3700
  • 数组循环移位

    问题描述:

    2014-11-16 15:43
    1323

Python爬虫
26249727
R语言
1782706
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部