spark
文章平均质量分 56
dqz_nihao
这个作者很懒,什么都没留下…
展开
-
一个SparkContext对应多个SparkSession
SparkContext和SparkSession。一个sparkcontext对应多个sparksession翻译 2022-06-13 17:49:06 · 1015 阅读 · 0 评论 -
John Snow 的Spark NLP 中Transformers
John Snow 的Spark NLP 中Transformers1.DocumentAssembler:获取数据可设置的参数有:setInputCol():设置输入列()setOutputCol():设置输出列()setIdCol() -> OPTIONAL: 带有 id 信息的 Sring 类型列setMetadataCol() -> OPTIONAL: 可选:具有元数据信息的映射类型列setCleanupMode(disabled) -> 清理选项,可能的值: d原创 2021-07-03 16:10:13 · 224 阅读 · 0 评论 -
Spark NLP的一些基础方法
Spark NLP的一些基础方法1.DocumentAssembler:获取数据为了通过 NLP 过程,我们需要对原始数据进行注释。有一个特殊的转换器可以为我们执行此操作:DocumentAssembler,它创建了第一个Document类型的注释。val documentAssembler = new DocumentAssembler(). setInputCol("text"). setOutputCol("document")2.Sentence detection and token原创 2021-07-03 15:44:22 · 756 阅读 · 0 评论 -
Spark Sql实战--合并数据
数据的合并把多列合并成一列字符串,并按指定分隔符分割。把多列的值合并成一个list合并成一个map格式的数据数组值操作(spark-2.4)转载:https://blog.csdn.net/zg_hover/article/details/106300119?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162451394516780269824990%2522%252C%2522scm%2522%253A%252220140转载 2021-06-24 14:16:12 · 791 阅读 · 0 评论 -
Spark SQL数据类型
Spark SQL数据类型数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483648到2147483647LongType:代表8个字节的整数。范围是-9223372036854775808到9223372036854775807FloatType:代表4字节的单精度浮点数DoubleType:代表8字节的双精度浮点数Decima原创 2021-06-13 18:53:19 · 2338 阅读 · 3 评论