数据挖掘_dylan_白羊的博客-CSDN博客

数据挖掘

关注

文章平均质量分 73

关注数：文章数：3 文章阅读量：3677 文章收藏量：12

作者: dylan_白羊

10年+互联网工作经验，擅长：1.大数据领域，具有丰富的大数据架构经验，专长：Flink、Spark、Doris、Clickhouse、Kafka等；2.丰富的网络安全数据安全经验，擅长网络安全体系架构如主机安全、渗透测试、漏洞扫描、系统加固、逆向工程等技术，擅长安全网关、安全审计、入侵检测、态势感知、SOC、SIEM、SOAR、XDR、UEBA、数据资产扫描、敏感数据识别与分类分级、数据加密脱敏、数据库审计、数据防泄露、数据水印、数据库网关等技术。

展开

Spark算法应用与实现

一、 word count应用场景统计过去一年中访客的浏览量、最近一段时间相同查询的数量和海量文本的词频等。代码实现：object WC_Test { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .master("local[1]") .appName("test") .config("spark.seriailzer"

原创 2020-07-16 16:11:18 · 628 阅读 · 0 评论
Spark核心知识拾遗

前言总结了一些核心的知识点，需要的请收藏点赞。1.Spark的架构中的基本组件（1）ClusterManager：在Standalone模式中即为Master(主节点)，控制整个集群，监控Worker。在YARN模式中为资源管理器ResourceManager。（2）Worker：从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager，负责计算节点的控制。（3）Driver：运行Application的main( )函数并创建SparkContext

原创 2020-07-08 15:56:33 · 1035 阅读 · 0 评论
Spark+Jieba实现中文分词

本案例使用jieba分词，jieba 是目前最好的 Python 中文分词组件，使用Spark同样也能实现中文分词。实现步骤如下：1.导入依赖<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version&g

原创 2020-07-08 15:36:59 · 2015 阅读 · 0 评论

数据挖掘

作者: dylan_白羊

Spark算法应用与实现

Spark核心知识拾遗

Spark+Jieba实现中文分词