1、网页分类问题
网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:
- 暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;
- 长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育儿知识等。
本文考虑的就是按网页内容将网页分为暂时性的与长青的,是一个二元分类问题。
2、数据预处理
字段 0~2:网址、网址id、样板文字,与我们的分类问题关系不大,忽略。
字段3-25:特征字段,参考
字段26:标签,1代表长青网页,0代表暂时性的网页。
from pyspark import SparkContext
sc = SparkContext()
def PrepareData(sc):
#----------------------1.导入并转换数据-------------
global Path
if sc.master[0:5]=="local" :
Path="D:\\data\\input\\"
else:
Path="hdfs://master:9000/user/hduser/"
#如果要在cluster模式运行(hadoop yarn 或Spar