object MyScalaWordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("MyScalaWordCount");
//创建一个SparkContext对象
val sc = new SparkContext(conf)
//读取文件及分割单词
val res = sc.textFile("/home/luohuan/input").flatMap(_.split(" "))
//判断单词大小写
//var res = Array("hello", "world", "Hi", "luo", "HUAN")
var cnt=0
for (i <- 0 until res.length) {
var part="""[a-z]""".r
var res2=part.findAllIn(res(i))
//println(res2.length)
if(res2.length==0){
cnt += 1
println(cnt)
}
}
//释放资源
sc.stop()
}
}
注释:单词空格分隔,不含标点符号
该博客展示了如何使用Scala和Spark进行单词计数,并实现了一个简单的大小写检查功能。代码中创建了SparkConf和SparkContext对象,读取指定路径的文件,通过flatMap操作分割单词。然后,它遍历单词数组,检查每个单词是否包含小写字母,如果未找到小写字母,则打印计数。这个示例突显了Spark在大数据处理中的应用和Scala的编程特性。
3453

被折叠的 条评论
为什么被折叠?



