基于决策树的网页分类(Python+Spark实现)

本文探讨了基于决策树的网页分类问题,利用Python和Spark的MLib库进行模型训练。数据预处理阶段忽略与分类无关的字段,模型训练时设置了决策树的相关参数。最后,通过AUC评估模型的性能。
摘要由CSDN通过智能技术生成

1、网页分类问题

网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:

  • 暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;
  • 长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育儿知识等。

本文考虑的就是按网页内容将网页分为暂时性的与长青的,是一个二元分类问题。

2、数据预处理

数据下载

字段 0~2:网址、网址id、样板文字,与我们的分类问题关系不大,忽略。
字段3-25:特征字段,参考
字段26:标签,1代表长青网页,0代表暂时性的网页。

from pyspark import SparkContext
sc = SparkContext()

def PrepareData(sc): 
    #----------------------1.导入并转换数据-------------
    global Path    
    if sc.master[0:5]=="local" :
       Path="D:\\data\\input\\"
    else:   
       Path="hdfs://master:9000/user/hduser/"
    #如果要在cluster模式运行(hadoop yarn 或Spar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值