Spark文本挖掘机器学习实现

最新推荐文章于 2022-08-14 10:29:56 发布

胡卡卡啦啦

最新推荐文章于 2022-08-14 10:29:56 发布

阅读量861

点赞数

分类专栏： Spark 文章标签： TF-IDF Ranomforest ML

本文链接：https://blog.csdn.net/random0815/article/details/79900518

版权

本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法，包括spark中机器学习算法的使用，文本挖掘的一些方法，特征值的转换

给定文件的格式

这里写图片描述

①.通过spark相关API将爬取到的数据进行处理，得到结构化的数据表

读取json文件并对其中的标点进行过滤

 val conf = new SparkConf().setAppName("input").setMaster("local[*]")
    val filter = new StopRecognition()
    filter.insertStopNatures("f","b","p","d","w","v","c","u") //过滤掉标点
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)
    val url = "C:\\Users\\shuangmm\\Desktop\\data\\jobarea=010000&industrytype=01.json"
    val dataDF =sqlContext.read.format("json")
      .option("header","true")
      .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。
      .load(url)//.show(10)//文件的路径

②.分析某几个条件下的分类数量排名（1-3年工作经验的大数据工程师的平均薪资情况）

将文件存储为dataframe的形式之后，为了求出某一分类下的平均薪资排名情况，在创建好的dataframe中选取相关的几列
进行文本的分割，关键词的提取
将文本过滤掉一些不常用的词，并将分好的词按照空格分隔开，在最后加了一个筛选条件，因为在分词划分之后将形容词和名词等全部分割，所以需要用这种方式来进行条件的筛选。

  val pay_job = dataDF

最低0.47元/天解锁文章

胡卡卡啦啦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark文本挖掘机器学习实现

本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法，包括spark中机器学习算法的使用，文本挖掘的一些方法，特征值的转换给定文件的格式①.通过spark相关API将爬取到的数据进行处理，得到结构化的数据表读取json文件并对其中的标点进行过滤 val conf = new SparkConf().setAppName("input")...
复制链接

扫一扫

专栏目录