- 博客(5)
- 收藏
- 关注
原创 主题提取
主题提取综述 随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最
2011-10-28 11:15:58 24366
原创 信息采集及开源Boilerpipe简介
信息采集及开源Boilerpipe简介敖立翔信息采集信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息
2011-10-16 14:58:53 8782 5
转载 基于密度的聚类
基于密度的聚类定义:1. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。2. 如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。3.
2011-10-15 16:35:07 8705 5
原创 文本聚类算法简要
文本聚类算法分析1. 传统的文本聚类算法 传统的文本聚类算法分为以下几种1.1 分割方法(partitioning methods)1.1.1 K-MEANS算法:工作原理:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象
2011-10-15 14:45:16 10946 1
原创 文本聚类简介
一.简介文本聚类是数据挖掘中数据挖掘技术中的一种,是把文本文档资源按照指定的相似性标准划分为若干类别,使得每一类文档相似性达到指定标准,并且为每一类别给出容易让人理解的具体描述,是一个发现文本集包含内容的方法。 二.文本聚类流程:1.将原始文
2011-10-15 09:52:45 3607 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人