自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sigmeta的博客

Yesterday you said tomorrow.

  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

转载 使用SimHash进行海量文本去重

阅读目录1. SimHash与传统hash函数的区别2. SimHash算法思想3. SimHash流程实现4. SimHash签名距离计算5. SimHash存储和索引6. SimHash存储和索引7. 参考内容  在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局...

2018-07-13 15:12:14 1412

原创 【数据挖掘学习笔记】12.复杂类型数据挖掘

一、模糊挖掘不确定性挖掘方法——模糊挖掘– 基于概率– 基于粗糙集– 基于模糊集模糊集的表示(1)Zadeh表示法(2)序偶表示法(3)向量表示法模糊集运算定义:设A,B是论域U的两个模糊子集,定义模糊统计法模糊矩阵定义:设 R = (rij)m×n ,0 ≤ rij ≤ 1,称R为模糊矩阵。当 rij 只取0或1时,称R为布尔(Boole)矩阵。当模糊方阵 R = (rij)n×n的对角线上的元...

2018-07-07 03:20:01 2898

原创 scrapy爬虫遇到相对路径问题的解决

网站中很多链接用的是相对路径,直接爬取会产生报错:Missing scheme in request url: ../index.html在python3中使用from urllib.parse import urljoin>>> urljoin("http://www.asite.com/folder/currentpage.html", "anotherpage.html")...

2018-07-06 14:36:42 3398

原创 【数据挖掘学习笔记】11.频繁模式挖掘进阶与关联规则

一、关联规则关联规则步骤:– 1、找个这个“同一项集”,相同的项集对应的规则有相同的支持度,找到支持度≥minsup的项集– 2、计算项集中所有规则的置信度,找到置信度≥minconf的规则由频繁项集生成关联规则生成关联规则– 给定频繁项集L,找出L的所有非空子集f,满足f →L–f 的置信度不小于最小置信度阈值– 如果{A,B,C,D}是频繁项集,则候选的规则有:    ABC →D, ABD ...

2018-07-04 00:05:59 2431

原创 【数据挖掘学习笔记】10.频繁模式挖掘基础

一、基本概念频繁模式– 频繁的出现在数据集中的模式– 项集、子序或者子结构动机– 发现数据中蕴含的事物的内在规律• 项(Item) – 最小的处理单位 – 例如:Bread, Milk• 事务(Transaction) – 由事务号和项集组成 – 例如:<1, {Bread,Milk}> • 事务数据库 – 由多个事务组成• 项集(Itemset)– 一个或多个项(item) 的集  ...

2018-07-03 23:44:18 6823

fasttext 0.9.2 windows command line tools

fasttext 0.9.2 最新release版本,windows下的命令行工具,支持autotune等最新功能。

2020-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除