【Spark+NLP】2、手机短信分类实例详细研究（1）变态详细版

最新推荐文章于 2024-07-10 10:10:41 发布

PrincessLin

最新推荐文章于 2024-07-10 10:10:41 发布

阅读量1k

点赞数 2

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PrincessLin/article/details/96774470

版权

本文详细解析了使用Spark、Word2Vec和多层感知器分类器实现手机短信分类的过程，涵盖VectorAssembler、Tokenizer、HashingTF、StringIndexer等预处理步骤，并介绍了Log4j日志系统、Pipeline工作原理以及MultilayerPerceptronClassifier的模型训练。

摘要由CSDN通过智能技术生成

《图解Spark》一书中的一段代码，使用spark+word2vec+前馈神经网络，实现手机短信分类。

本人使用这个例子研究此类课题的实现过程，

本文为代码的详细注释。（自用，入门，过于详细。）本文仅为头部信息，主体代码见后续（2）（3）等。。

import org.apache.log4j.{Level, Logger}

1、在应用程序中添加日志记录总的来说基于三个目的：

监视代码中变量的变化情况，周期性的记录到文件中供其他应用进行统计分析工作；
跟踪代码运行时轨迹，作为日后审计的依据；
担当集成开发环境中的调试器的作用，向文件或控制台打印代码的调试信息。

2、 Log4j是强有力的日志操作包。　　

3、Logger - 日志写出器，供程序员输出日志信息

4、配置根 Logger ，其语法为：
　　 log4j.rootLogger = [ level ] , appenderName, appenderName, …
　　其中， level 是日志记录的优先级，分为 OFF 、 FATAL 、 ERROR 、 WARN 、 INFO 、 DEBUG 、 ALL 或者您定义的级别。 Log4j 建议只使用四个级别，优先级从高到低分别是 ERROR 、 WARN 、 INFO 、 DEBUG 。

5、{level,logger}：导入log4j包中的这两个类，故用大括号。
---具体可参考https://blog.csdn.net/anlina_1984/article/details/5313023

import org.apache.spark.ml.Pipeline

1、使用原因：

虽然 MLlib 已经足够简单实用，但如果目标数据集结构复杂，需要多次处理，或是在学习过程中，要使用多个转化器 (Transformer) 和预测器 (Estimator)，这种情况下使用 MLlib 将会让程序结构极其复杂。

Pipeline 是建立在 DataFrames 上的更高层次的 API 库，旨在帮助使用者来创建和调试实际的机器学习工作流。

2、

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。