关闭

spark sql版本的单词统计代码

标签: sparksql
404人阅读 评论(0) 收藏 举报
分类:

见下面代码实现:

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.DataTypes
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
/**
 * scala sql版本的单词统计
 */
object WordCount {
  def main(args:Array[String]):Unit={
    //1\获取context
    val sc=new SparkContext(new SparkConf().setAppName("word").setMaster("local[1]"))
    //2\获取sqlContext
    val sqlContext=new SQLContext(sc)
    //3\加载RDD
    val lines=sc.textFile("dataframeword.txt")
    //4\转换rows
    val rows=lines.map { x => Row(x) }
    //5\创建structField
    val field=Array(DataTypes.createStructField("name", DataTypes.StringType, true))
    //6\创建structType
    val structType=DataTypes.createStructType(field)
    //等价于一句话:  val structTy=StructType(Array(StructField("name", StringType, true)))
    //7\创建dataframe
    val df=sqlContext.createDataFrame(rows, structType)
    //8\注册表
    df.registerTempTable("t_word")
    //9\注册函数
    sqlContext.udf.register("str", (name:String)=>1)
    //10sql语句查询返回结果
    sqlContext.sql("select name,str(name) from t_word ").groupBy(df.col("name")).count().show
    //关闭资源
    sc.stop()
  }
}

参考:

https://rklicksolutions.wordpress.com/2016/03/03/tutorial-spark-1-6-sql-and-dataframe-operations/

1
0
查看评论

sparkstreaming版本的单词统计

sparkstreaming版本的单词统计
  • high2011
  • high2011
  • 2016-06-04 18:18
  • 511

简单SparkRDD单词计数操作

1 工具IDEA 2 添加jar依赖 3 spark的local模式 在自己电脑下创建文件: E://sparktext//text.txt然后写入: hadoop hbase hadoop hello world hive hive hello spark spark mapreduce...
  • u012429555
  • u012429555
  • 2016-05-14 23:43
  • 2237

用spark建立一个单词统计的应用

本文我们将建立一个简单的单词统计应用 创建rdd In [1]: wordsList = ['cat', 'elephant', 'rat', 'rat', 'cat'] word...
  • u013719780
  • u013719780
  • 2016-08-29 18:13
  • 6720

Spark学习—统计文件单词出现次数

上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符串,获取单词新JavaRDD; 3.通过mapToPair,以...
  • a123demi
  • a123demi
  • 2017-05-12 11:36
  • 1271

spark下统计单词频次

写了一个简单的语句,还没有优化:scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpper...
  • bluejoe2000
  • bluejoe2000
  • 2015-03-06 08:51
  • 6807

2-1、Spark的单词统计WC

1、输入数据: [root@spark0 bigdata]# pwd /usr/local/spark-1.5.2-bin-hadoop2.6/bigdata [root@spark0 bigdata]# more wcDemo1.txt hadoop hive solr redis ka...
  • baolibin528
  • baolibin528
  • 2015-12-13 22:55
  • 1751

spark 统计单词个数

//注意事项:在spark api 内不要使用 api外定义的变量,这样会破坏spark集群计算的特性。如果需要使用外部变量,通过spark broadcast来访问。 public class WordCount {     public static void main(St...
  • xiongzaibinggan
  • xiongzaibinggan
  • 2016-12-14 14:51
  • 1061

spark统计文献中每个英文单词出现的次数

实例英文文档 My father was a self-taught mandolin player. He was one of the best string instrument players in our town. He could not read music, but if he h...
  • hb707934728
  • hb707934728
  • 2016-12-15 10:19
  • 1585

spark 单词统计

maven 项目 前提是装好hadoop集群和spark集群 并上传好文件到hdfs  pom.xml 如下 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...
  • h348592532
  • h348592532
  • 2017-11-30 20:08
  • 95

Spark Java 单词计数(WordCount)

SparkRDD练习,加深理解。
  • Spider_Black
  • Spider_Black
  • 2017-07-07 19:16
  • 536
    个人资料
    • 访问:888187次
    • 积分:12905
    • 等级:
    • 排名:第1265名
    • 原创:423篇
    • 转载:64篇
    • 译文:54篇
    • 评论:102条
    博客专栏
    最新评论