boom_j-CSDN博客

翻译基于高级多类实例选择的支持向量机的文本分类

本文提出的算法：在本文中，我们提出了基于高级多类实例选择的支持向量机（AMCISSVM）来提高支持向量机的效率。他提出的算法与多类实例选择（MCIS）和邻域属性基于模式选择（NPPS）算法进行比较。高级MCIS对多数据集显示出高精度。这些实验数据集从UCI机器学习库中检索。背景意义：如今，IT的发展已经导致电子文本文档的使用巨大。由于这个原因，文本挖掘是从大量文本文档中检

2016-12-27 17:54:35 1079

转载 KNN分类算法及其改进

一般有两种方法计算相似度:（1）欧氏距离，两个标准化的文本向量a,b之间的欧氏距离为：

2016-12-26 16:42:55 11857 1

1.中文网页自动分类是从文本自动分类的基础上发展起来的，由于文本自动分类拥有比较成熟的技术，不少研究工作试图使用纯文本分类技术实现网页分类。孙建涛指出:用纯文本方式表示网页是困难的，也是不合理的，因为网页包含的信息比纯文本包含的信息要丰富得多;用不同方式表示网页然后再组合分类器的方法能够综合利用网页的特征，但各个分类器的性能难以估计，使用什么组合策略也难以确定。董静等人提出了基于网页风格、形态和内

2016-12-21 11:07:09 3547

转载用于大数据分类的KNN算法研究

随着信息技术的快速发展，大数据时代已经到来，人们迫切需要研究出更加方便有效的工具对收集到的海量信息进行J决速准确的分类，以便从中提取符合需要的、简洁的、精炼的、可理解的知识。口前关于这方而的研究已经取得了很大的进步。现有的分类算法有很多种，比较常用的有KNN,Native Bayes, Neural Net 、SVM,LLSF 等方法。针对这些算法处理大规模数据时存在的问题，国

2016-12-20 15:53:19 7531 2

转载 Svm -KNN分器在网页分类中的应用

Intenet网上海量信息使得网页分类成为一个日益重要的研究领域。网页分类通过自动为文本标注类别，可以有效地帮助人们组织管理文本信息，已经逐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前，文本分类已经被应用到许多领域中，包括:抽取符号知识，分发电子邮件，生成用户兴趣模式和邮件内容监控等等。文本分类的目标是在分析文本内容的基础上给文本分配一个或多个比较合适的类

2016-12-20 09:55:37 2411

翻译基于用户兴趣挖掘的个性化搜索引擎的研究

随着互联网技术的快速发展，搜索引擎已经在许多领域得到广泛使用，它被视为一种工具，人们可以在万维网上找到他们需要的信息，为了向用户提供个性化搜索服务，个性化搜索引擎出现。分析当前搜索引擎的不足和用户对个性化搜索的需求，本文设计了一个基于用户兴趣挖掘的个性化搜索引擎模型。许多实验验证了提出的模型是有效的。但是搜索引擎的绝大部分结果是短的【 Real life, real users

2016-12-08 17:23:25 4343 2

转载基于KNN＋层次SVM的文本自动分类技术

针对大规模文本的自动层次分类问题，Ｋ近邻（ＫＮＮ）算法分类效率较高，但是对于处于类别边界的样本分类准确度不是很高。而支持向量机（ＳＶＭ）分类算法准确度比较高，但以前的多类ＳＶＭ算法很多基于多个独立二值分类器组成，

2016-11-16 17:00:50 1452

转载 Web数据挖掘与个性化搜索引擎综述

搜索引擎已成为人们最普遍使用的信息检索的工具。该工具涉及到信息检索、数据库、数据挖掘、人工智能、分布式处理、自然语言处理等多个领域的理论和技术 ,因而具有综合性和挑战性。根据 Web挖掘的对象不同 , Web数据挖掘分为:Web内容挖掘 , Web结构挖掘和 Web使用记录挖掘。 Web内容挖掘是从文档内容或其描述中抽取有趣知识的一种过程,是一种基于网页内容元素对

2016-11-15 17:00:00 796

翻译 K一最邻近算法在文本自动分类中的应用

一种常用的基于内容的分类算法-----k--最邻近算法（KNN），利用KNN算法并且结合结合改进的词特征权值计算方法和文本相似度的计算方法完成了文本的自动分类．通过KNN方法分类之后的结果的查准率、查全率得以明显提高．传统的分类方法是使用人工对文本进行分类，并加以组织和整理，以方便人们浏览．但是，这种人工分类的做法往往需要具有专业知识的人员才能胜任，而且信息数据量的爆炸性增长也使得

2016-11-09 21:04:17 1696

原创基于数据挖掘的搜索引擎技术（1）

robot：机器人是Robot英文直译，在搜索引擎优化SEO中，我们经常翻译为:探测器。有时，你会碰到crawlew（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令

2016-10-31 09:27:32 1955

boom_j的博客

原创基于KNN 算法的文本分类系统的设计与实现