val conf = new SparkConf().setAppName("input").setMaster("local[*]")
val filter = new StopRecognition()
filter.insertStopNatures("f","b","p","d","w","v","c","u") //过滤掉标点val sparkContext = new SparkContext(conf)
val sqlContext = new SQLContext(sparkContext)
val url = "C:\\Users\\shuangmm\\Desktop\\data\\jobarea=010000&industrytype=01.json"val dataDF =sqlContext.read.format("json")
.option("header","true")
.option("inferSchema",true.toString)//这是自动推断属性列的数据类型。
.load(url)//.show(10)//文件的路径
本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法,包括spark中机器学习算法的使用,文本挖掘的一些方法,特征值的转换给定文件的格式①.通过spark相关API将爬取到的数据进行处理,得到结构化的数据表读取json文件并对其中的标点进行过滤 val conf = new SparkConf().setAppName("input")...