Spark文本挖掘机器学习实现

本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法,包括spark中机器学习算法的使用,文本挖掘的一些方法,特征值的转换

给定文件的格式

这里写图片描述

①.通过spark相关API将爬取到的数据进行处理,得到结构化的数据表
  • 读取json文件并对其中的标点进行过滤
 val conf = new SparkConf().setAppName("input").setMaster("local[*]")
    val filter = new StopRecognition()
    filter.insertStopNatures("f","b","p","d","w","v","c","u") //过滤掉标点
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)
    val url = "C:\\Users\\shuangmm\\Desktop\\data\\jobarea=010000&industrytype=01.json"
    val dataDF =sqlContext.read.format("json")
      .option("header","true")
      .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。
      .load(url)//.show(10)//文件的路径
②.分析某几个条件下的分类数量排名(1-3年工作经验的大数据工程师的平均薪资情况)
  • 将文件存储为dataframe的形式之后,为了求出某一分类下的平均薪资排名情况,在创建好的dataframe中选取相关的几列
  • 进行文本的分割,关键词的提取
    将文本过滤掉一些不常用的词,并将分好的词按照空格分隔开,在最后加了一个筛选条件,因为在分词划分之后将形容词和名词等全部分割,所以需要用这种方式来进行条件的筛选。
  val pay_job = dataDF
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值