基于支持向量机的网页分类（Python+Spark实现）

最新推荐文章于 2024-02-04 17:11:34 发布

桂小林

最新推荐文章于 2024-02-04 17:11:34 发布

阅读量1.1k

点赞数 1

分类专栏： python spark 机器学习文章标签： Python Spark

本文链接：https://blog.csdn.net/quintind/article/details/80044589

版权

本文详细探讨了如何运用Python和Spark框架实现支持向量机（SVM）进行网页分类。首先，文章介绍了网页分类的基本概念，然后讲解了数据集的获取过程。通过结合Python和Spark的强大功能，实现高效且精准的网页分类算法。

摘要由CSDN通过智能技术生成

网页分类问题的介绍以及数据集的下载，见基于决策树的网页分类（Python+Spark实现）

import sys
from time import time
import pandas as pd
import matplotlib.pyplot as plt
from pyspark import SparkConf, SparkContext
from pyspark.mllib.classification import SVMWithSGD
from pyspark.mllib.regression import LabeledPoint
import numpy as np
from pyspark.mllib.evaluation import BinaryClassificationMetrics
from pyspark.mllib.feature import StandardScaler


def SetLogger( sc ):
    logger = sc._jvm.org.apache.log4j
    logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
    logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)    

def SetPath(sc):
    global Path
    if sc.master[0:5]=="local" :
        Path="D:\\data\\input\\"
    else:   
        Path="hdfs://master:9000/user/hduser/"
#如果要在cluster模式运行(hadoop yarn 或Spark Stand alone)，请按照书上的说明，先把文件上传到HDFS目录

def get_mapping(rdd, idx):
    return rdd.map(lambda fields: fields[idx]).distinct().zipWithIndex().collectAsMap()

def extract_label(record):
    label=(record[-1])
    return float(label)

def extract_features(field,categoriesMap,featureEnd):
    categoryIdx = categoriesMap[field[3]]
    categoryFeatures = np.zeros(len(categoriesMap))
    categoryFeatures[categoryIdx] = 1
    numericalFeatures=[convert_float(field)  for  field in field[4: featureEnd]]    
    return  np.concatenate(( categoryFeatures, numericalFeatures))

def convert_float(x):
    return (0 if x=="?" else float(x))

def PrepareData(sc): 
    #----------------------1.导入并转换数据-------------
    prin