最最最简单的URL聚类

最新推荐文章于 2024-05-02 21:26:54 发布

beneo

最新推荐文章于 2024-05-02 21:26:54 发布

阅读量859

点赞数

分类专栏：文本挖掘文章标签： clustering mahout hadoop url http

文本挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL

[color=blue][size=large]第一步：提取http链接[/size][/color]

使用 Jsoup 来做


        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }

[color=blue][size=large]第二步：提取向量[/size][/color]
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki，apache，org，confluence，display，mahout

[color=blue]
[size=medium]第三部：聚类[/size][/color]
参考[url=http://beneo.iteye.com/admin/blogs/1179331]一个基于Mahout与hadoop的聚类搭建[/url]

不要分词了，因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面，就可以了

聚类是帮你发现群体行为，以及为了后续的文本挖掘做准备工作的

不要期望太多

优惠劵

beneo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最最最简单的URL聚类

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL[color=blue][size=large]第一步：提取http链接[/size][/color]使用 Jsoup 来做[code="java"] Document doc = Jsoup.parse(stream.getText()) Elements links = d...
复制链接

扫一扫