最最最简单的URL聚类

我们要发现一个富文本中的http链接,发现一些群体行为,获取URL

[color=blue][size=large]第一步:提取http链接[/size][/color]

使用 Jsoup 来做

Document doc = Jsoup.parse(stream.getText())
Elements links = doc.select("a[href]")
for (Element element: links) {
link = element.attributes().iterator().next().getValue()
// link 就是链接
println(link)
}



[color=blue][size=large]第二步:提取向量[/size][/color]
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki,apache,org,confluence,display,mahout

[color=blue]
[size=medium]第三部:聚类[/size][/color]
参考[url=http://beneo.iteye.com/admin/blogs/1179331]一个基于Mahout与hadoop的聚类搭建[/url]

不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了

聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的

不要期望太多
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值