基于决策树的网页分类（Python+Spark实现）

最新推荐文章于 2024-04-29 11:09:42 发布

桂小林

最新推荐文章于 2024-04-29 11:09:42 发布

阅读量2.3k

点赞数 2

分类专栏： spark python Hadoop 文章标签： Spark Python MLib 决策树

本文链接：https://blog.csdn.net/quintind/article/details/79954633

版权

本文探讨了基于决策树的网页分类问题，利用Python和Spark的MLib库进行模型训练。数据预处理阶段忽略与分类无关的字段，模型训练时设置了决策树的相关参数。最后，通过AUC评估模型的性能。

摘要由CSDN通过智能技术生成

1、网页分类问题

网页分类是一个经典的问题，例如：雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种，如：a、按网页类型（新闻、财经、体育、科技……）；b、按网页内容：

暂时性的（ephemeral）：文章只是在某一段时间内对读者有意义，过了这段时间就没有意义了，如：当日股市涨跌新闻；
长青的（evergreen）：读者长久会对这些文章感兴趣，如：理财观念、育儿知识等。

本文考虑的就是按网页内容将网页分为暂时性的与长青的，是一个二元分类问题。

2、数据预处理

数据下载

字段 0~2：网址、网址id、样板文字，与我们的分类问题关系不大，忽略。
字段3-25：特征字段，参考
字段26：标签，1代表长青网页，0代表暂时性的网页。

from pyspark import SparkContext
sc = SparkContext()

def PrepareData(sc): 
    #----------------------1.导入并转换数据-------------
    global Path    
    if sc.master[0:5]=="local" :
       Path="D:\\data\\input\\"
    else:   
       Path="hdfs://master:9000/user/hduser/"
    #如果要在cluster模式运行(hadoop yarn 或Spar