数据检索---空间向量模型VSM

最新推荐文章于 2020-07-05 00:55:32 发布

李元乐

最新推荐文章于 2020-07-05 00:55:32 发布

阅读量1.5k

点赞数

分类专栏：数据检索文章标签： lucune vsm 相似度模型 tf-idf

本文链接：https://blog.csdn.net/hugolyl/article/details/49275797

版权

数据检索专栏收录该内容

8 篇文章 0 订阅

订阅专栏

向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。

VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti，词根/词/短语/其他每个文档dj可以用特征项向量来表示（a1j,a2j，…，aMj）权重计算，N个训练文档AM*N= (aij) 文档相似度比较1）Cosine计算，余弦计算的好处是，正好是一个介于0到1的数，如果向量一致就是1，如果正交就是0，符合相似度百分比的特性,余弦的计算方法为，向量内积/各个向量的模的乘积.2）内积计算，直接计算内积，计算强度低，但是误差大。
向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。SMART是首个使用这个模型的信息检索系统。
文件（语料）被视为索引词（关键词）形成的多次元向量空间，索引词的集合通常为文件中至少出现过一次的词组。
搜寻时，输入的检索词也被转换成类似于文件的向量，这个模型假设，文件和搜寻词的相关程度，可以经由比较每个文件(向量）和检索词（向量）的夹角偏差程度而得知。
实际上，计算夹角向量之间的余弦比直接计算夹角容易：
余弦为零表示检索词向量垂直于文件向量，即没有符合，也就是说该文件不含此检索词。
通过上述的向量空间模型，文本数据就转换成了计算机可以处理的结构化数据，两个文档之间的相似性问题转变成了两个向量之间的相似性问题。

这里举一个简单的例子，说明VSM的作用：

/**
* 计算比对文章和样本的余弦值
*
* @param content
* @param samples
*/
public void samilarity(String content, Vector<Vector<String>> samples) {
for (int i = 0; i < samples.size(); i++) {
Vector<String> single = samples.get(i);
// 存放每个样本中的词语，在该对比文本中出现的次数
Vector<Integer> wordCount = new Vector<Integer>();
for (int j = 0; j < single.size(); j++) {
String word = single.get(j);
int count = getCharInStringCount(content, word);
wordCount.add(j, count);
//System.out.print(word + ":" + tfidf + ",");
}
//System.out.println("\n");
// 计算余弦值
int sampleLength = 0;
int textLength = 0;
int totalLength = 0;
for (int j = 0; j < single.size(); j++) {
// 样本中向量值都是1
sampleLength += 1;
textLength += wordCount.get(j) * wordCount.get(j);
totalLength += 1 * wordCount.get(j);
}
// 开方计算
double value = 0.00;
if(sampleLength > 0 && textLength > 0){
value = (double)totalLength/(Math.sqrt(sampleLength) * Math.sqrt(textLength));
}

System.out.println(single.get(0) + "," + sampleLength + ","
+ textLength + "," + totalLength + "," + value);

}
}

/**
* 计算word在content中出现的次数
*
* @param content
* @param word
* @return
*/
public int getCharInStringCount(String content, String word) {
String str = content.replaceAll(word, "");
return (content.length() - str.length()) / word.length();

}

/**
* 加载样本
*
* @param path
* @return
*/
public Vector<Vector<String>> loadSample(String path) {
Vector<Vector<String>> vector = new Vector<Vector<String>>();
try {
try {
FileReader reader = new FileReader(new File(path));
BufferedReader bufferReader = new BufferedReader(reader);
String hasRead = "";
while ((hasRead = bufferReader.readLine()) != null) {
String info[] = hasRead.split(",");
Vector<String> single = new Vector<String>();
for (int i = 0; i < info.length; i++) {
single.add(info[i]);
}
vector.add(single);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
}
} catch (IOException e) {
e.printStackTrace();
}
return vector;
}

/**
* 读取对应path的文件内容
*
* @param path
* @return
*/
public String getContent(String path) {
StringBuffer buffer = new StringBuffer();
try {
try {
FileReader reader = new FileReader(new File(path));
BufferedReader bufferReader = new BufferedReader(reader);
String hasRead = "";
while ((hasRead = bufferReader.readLine()) != null) {
buffer.append(hasRead);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
}
} catch (IOException e) {
e.printStackTrace();
}
return buffer.toString();
}

李元乐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据检索---空间向量模型VSM

向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。M个无序
复制链接

扫一扫

专栏目录