大数据
SpecialRiot
这个作者很懒,什么都没留下…
展开
-
使用Python本地运行Spark获取中文文章词频TopN
1.环境准备在Windows下使用Pycharm运行Spark代码_SpecialRiot的博客-CSDN博客2.代码实现分词使用的jieba分词框架,通过分词后进行wordCount操作再对value进行排序,截取前N个。from pyspark import SparkConf,SparkContextimport jiebadef main(sc): textFile = sc.textFile("./word.txt") #分词 一行变多行原创 2022-03-07 17:02:37 · 1714 阅读 · 0 评论 -
在Windows下使用Pycharm运行Spark代码
在Windows下使用Pycharm运行Spark代码原创 2022-03-07 14:34:27 · 3190 阅读 · 3 评论 -
基于Spark的中文文章词频统计
1.中文分词中文分词选用的是Ansj框架。分词部分使用Java语言封装,由Spark中的flatMap算子调用。分词后根据词性做了筛选。package com.ahn.spark;import org.ansj.domain.Result;import org.ansj.domain.Term;import org.ansj.splitWord.analysis.ToAnalysis;import java.util.*;public class AnsjTest {原创 2022-02-25 20:00:34 · 2295 阅读 · 0 评论