html页面相似度,simHtml包用于计算Web页面相似度,用于web爬虫等

# simHtml

## 介绍

simHtml包提供了一些用于计算Web页面相似度的函数

## 安装

快速安装:

go get -u github.com/cckuailong/simHtml

## 原理

### 网页结构相似度

使用序列比较方法(最长公共子序列)来计算dom树的相似度。

### 元素类型相似度

计算class 和 style的相似度。

### 整合 网页结构相似度 和 元素类型相似度

整合算法:

k * structural_similarity(document_1, document_2) + (1 - k) * style_similarity(document_1, document_2)

相似度取值在0-1之间

### k取值建议

使用 `k=0.3` 可以获得更好的结果。 元素类型相似度 包含的信息更多,更精确。

## 函数

- GetSimFromFile(file1, file2 string) float64

```

In [1]: 1.html's content is

'''

First Document

'''

In [2]: 2.html's content is

'''

Second document Document

'''

In [3] import "github.com/cckuailong/simHtml/simHtml"

In [4]: simHtml.GetSimRate("./1.html", "./2.html")

Out[4]: 0.9727272727272727

```

- GetSimFromStr(str1, str2 string) float64

- GetSimFromUrl(url1, url2 string) float64

有疑问加站长微信联系(非本文作者)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值