最最最简单的URL聚类

最新推荐文章于 2021-01-01 11:51:44 发布

柱子89

最新推荐文章于 2021-01-01 11:51:44 发布

阅读量1.2k

点赞数

分类专栏：电信运营商日志挖掘

电信运营商日志挖掘专栏收录该内容

40 篇文章 1 订阅

订阅专栏

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL

第一步：提取http链接

使用 Jsoup 来做

    Java代码   
    
  
 Document doc = Jsoup.parse(stream.getText())  
 Elements links = doc.select("a[href]")  
 for (Element element: links) {  
     link = element.attributes().iterator().next().getValue()  
     // link 就是链接  
     println(link)  
 }  

第二步：提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki，apache，org，confluence，display，mahout

第三步：聚类
参考一个基于Mahout与hadoop的聚类搭建

不要分词了，因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面，就可以了

聚类是帮你发现群体行为，以及为了后续的文本挖掘做准备工作的

不要期望太多