Python Spark MLlib之朴素贝叶斯分类

本文介绍了如何使用Python Spark MLlib实现朴素贝叶斯分类。通过数据预处理,包括特征编码、数值转换和标准化,构建LabeledPoint数据。接着,训练NaiveBayes模型并进行参数调优,最后评估模型性能,判断未出现过拟合,并对测试数据进行预测。
摘要由CSDN通过智能技术生成

数据准备

决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。

Local模式启动ipython notebook

cd ~/pythonwork/ipynotebook
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark

导入并转换数据

## 定义路径
global Path
if sc.master[:5]=="local":
    Path="file:/home/yyf/pythonwork/PythonProject/"
else:
    Path="hdfs://master:9000/user/yyf/"
## 读取train.tsv
print("开始导入数据...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
## 取第一项数据
header = rawDataWithHeader.first()
## 剔除字段名(特征名)行,取数据行
rawData = rawDataWithHeader.filter(lambda x:x!=header)
## 将双引号"替换为空字符(剔除双引号)
rData = rawData.map(lambda x:x.replace("\"",""))
## 以制表符分割每一行
lines = rData.map(lambda x: x.split("\t"))
print("共有:"+str(lines.count())+"项数据")

数据预处理

1、处理特征

该数据集tran.tsv和test.tsv的第3个字段是alchemy_category网页分类,是一个离散值特征,要采用OneHotEncode的方式进行编码转换为数值特征,主要过程如下:

  • (1) 创建categoriesMap字典,key为网页类别名,value为数字(网页类别名的索引值),每个类别名对应一个索引值
  • (2) 根据categoriesMap字典查询每个alchemy_category特征值对应的索引值,例如business的索引值categoryIdx为2
  • (3) 根据categoryIdx=2,以OneHotEncodeer的方式转换为一个列表categoryFeatures List,该列表长度为14(统计所有网页类别),categoryIdx=2对应的列表为[0,0,1,0,0,0,0,0,0,0,0,0,0,0]。

建立categoriesMap网页分类字典

categoriesMap = lines.map(lambda fields: fileds[3]).distinct().zipWithIndex().collectAsMap()

其中,lines.map()表示处理之前读取的数据的每一行,.map(lambda fields: fileds[3])表示读取第3个字段,.distinct()保留不重复数据,.zipWithIndex()将第3个字段中不重复的数据进行编号,.collectAsMap()转换为dict字典格式

将每个alchemy_category网页分类特征值转化为列表categoryFeatures List

## 给定一个alchemy_category网页分类特征转化为OneHot 列表
## 查询对应索引值
import numpy as np
categoryIdx = categoriesMap[lines.first()[3]]
OneHot = np.zeros(len(categoriesMap))
OneHot[categoryIdx] = 1
print(OneHot)

对于第4~25字段的数值特征,要转换为数值,用float函数将字符串转换为数值,同时简单处理缺失值”?”为0,(且小于0的数值都变为0不然训练的时候会报错)。

整个处理特征的过程可以封装成一个函数:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值