![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 73
dylan_白羊
10年+互联网工作经验,擅长:1.大数据领域,具有丰富的大数据架构经验,专长:Flink、Spark、Doris、Clickhouse、Kafka等;2.丰富的网络安全数据安全经验,擅长网络安全体系架构如主机安全、渗透测试、漏洞扫描、系统加固、逆向工程等技术,擅长安全网关、安全审计、入侵检测、态势感知、SOC、SIEM、SOAR、XDR、UEBA、数据资产扫描、敏感数据识别与分类分级、数据加密脱敏、数据库审计、数据防泄露、数据水印、数据库网关等技术。
展开
-
Spark算法应用与实现
一、 word count应用场景统计过去一年中访客的浏览量、最近一段时间相同查询的数量和海量文本的词频等。代码实现:object WC_Test { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .master("local[1]") .appName("test") .config("spark.seriailzer"原创 2020-07-16 16:11:18 · 628 阅读 · 0 评论 -
Spark核心知识拾遗
前言总结了一些核心的知识点,需要的请收藏点赞。1.Spark的架构中的基本组件(1)ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器ResourceManager。(2)Worker:从节点,负责控制计算节点,启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制。(3)Driver:运行Application的main( )函数并创建SparkContext原创 2020-07-08 15:56:33 · 1035 阅读 · 0 评论 -
Spark+Jieba实现中文分词
本案例使用jieba分词,jieba 是目前最好的 Python 中文分词组件,使用Spark同样也能实现中文分词。实现步骤如下:1.导入依赖<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version&g原创 2020-07-08 15:36:59 · 2015 阅读 · 0 评论