探索支持向量机：从理论到实践的完整指南-CSDN博客

本文链接：https://blog.csdn.net/mmlihaio/article/details/143057261

引言

支持向量机（Support Vector Machines, SVMs）是一种经典的监督学习方法，广泛应用于分类、回归和异常检测等任务。本文旨在通过详细的解释和代码示例，帮助您理解和实现SVM模型，特别是如何在scikit-learn中运用SVM进行文本检索。

主要内容

什么是支持向量机？

支持向量机是一种二分类模型，其核心思想是在特征空间中寻找一个最佳超平面，以最大化两个类别之间的边界。对于非线性可分的数据，SVM通过核函数将数据映射到更高的维度，使其线性可分。

scikit-learn中的SVM

scikit-learn提供了简单易用的接口来实现SVM。我们可以通过SVC（Support Vector Classifier）类快速构建SVM模型。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 加载数据集
iris = datasets.load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建并训练SVM模型
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# 测试模型
predictions = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, predictions)}")

SVM中的核函数

核函数是SVM强大的原因之一。常用的核函数包括线性核、多项式核和径向基函数（RBF）核。选择合适的核函数可以显著提高模型性能。

文本检索中的SVM

在文本检索（IR）中，SVM可用于构建文本分类器，帮助对文本数据进行有效检索。以下是一个使用SVM进行文本检索的示例：

# 在这里，我们使用一个虚构的API来演示
from langchain_community.retrievers import SVMRetriever
from langchain_openai import OpenAIEmbeddings

# 创建检索器，使用API代理服务提高访问稳定性
retriever = SVMRetriever.from_texts(
    ["foo", "bar", "world", "hello", "foo bar"], OpenAIEmbeddings()
)

# 使用检索器
result = retriever.invoke("foo")

for doc in result:
    print(doc.page_content)