基于支持向量机的网页分类(Python+Spark实现)

本文详细探讨了如何运用Python和Spark框架实现支持向量机(SVM)进行网页分类。首先,文章介绍了网页分类的基本概念,然后讲解了数据集的获取过程。通过结合Python和Spark的强大功能,实现高效且精准的网页分类算法。
摘要由CSDN通过智能技术生成

网页分类问题的介绍以及数据集的下载,见基于决策树的网页分类(Python+Spark实现)

import sys
from time import time
import pandas as pd
import matplotlib.pyplot as plt
from pyspark import SparkConf, SparkContext
from pyspark.mllib.classification import SVMWithSGD
from pyspark.mllib.regression import LabeledPoint
import numpy as np
from pyspark.mllib.evaluation import BinaryClassificationMetrics
from pyspark.mllib.feature import StandardScaler


def SetLogger( sc ):
    logger = sc._jvm.org.apache.log4j
    logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
    logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)    

def SetPath(sc):
    global Path
    if sc.master[0:5]=="local" :
        Path="D:\\data\\input\\"
    else:   
        Path="hdfs://master:9000/user/hduser/"
#如果要在cluster模式运行(hadoop yarn 或Spark Stand alone),请按照书上的说明,先把文件上传到HDFS目录

def get_mapping(rdd, idx):
    return rdd.map(lambda fields: fields[idx]).distinct().zipWithIndex().collectAsMap()

def extract_label(record):
    label=(record[-1])
    return float(label)

def extract_features(field,categoriesMap,featureEnd):
    categoryIdx = categoriesMap[field[3]]
    categoryFeatures = np.zeros(len(categoriesMap))
    categoryFeatures[categoryIdx] = 1
    numericalFeatures=[convert_float(field)  for  field in field[4: featureEnd]]    
    return  np.concatenate(( categoryFeatures, numericalFeatures))

def convert_float(x):
    return (0 if x=="?" else float(x))

def PrepareData(sc): 
    #----------------------1.导入并转换数据-------------
    prin
Spark MLlib中支持向量机(SVM)算法的实现主要基于LIBSVM库。它支持线性SVM和非线性SVM,可以处理二元分类和多元分类问题。 下面是一个简单的例子,演示如何在Spark MLlib中使用SVM实现二元分类: ```python from pyspark.ml.classification import LinearSVC from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.ml.feature import VectorAssembler from pyspark.sql.functions import col # 加载数据 data = spark.read.load("data.csv", format="csv", header="true", inferSchema="true") # 创建特征向量 assembler = VectorAssembler(inputCols=data.columns[:-1], outputCol="features") data = assembler.transform(data) # 将标签列重命名为“标签” data = data.withColumnRenamed(data.columns[-1], "label") # 将数据分为训练集和测试集 train, test = data.randomSplit([0.7, 0.3], seed=12345) # 创建SVM模型 svm = LinearSVC(maxIter=10, regParam=0.1) # 训练模型 model = svm.fit(train) # 在测试集上进行预测 predictions = model.transform(test) # 评估模型 evaluator = BinaryClassificationEvaluator(rawPredictionCol="prediction", labelCol="label") accuracy = evaluator.evaluate(predictions) print("Accuracy:", accuracy) ``` 在这个例子中,我们首先加载数据并创建特征向量。然后,我们将标签列重命名为“标签”,并将数据分为训练集和测试集。接下来,我们创建一个LinearSVC对象来定义SVM模型,并使用train方法在训练集上训练模型。最后,我们在测试集上进行预测,并使用BinaryClassificationEvaluator来评估模型的性能。 需要注意的是,这只是一个简单的例子,实际应用中需要根据具体情况对模型参数进行调整。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值