scala语言spark读取csv中文乱码

最新推荐文章于 2023-05-31 17:30:50 发布

Ficery

最新推荐文章于 2023-05-31 17:30:50 发布

阅读量2.1k

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/Ficery/article/details/103695695

版权

在使用Scala和Spark处理CSV文件时遇到了中文乱码问题，表现为文本显示异常。为了解决这个问题，可以尝试使用`spark.sparkContext.hadoopFile`方法，并在读取时指定正确的字符编码进行转换，从而正确地解析中文内容。

摘要由CSDN通过智能技术生成

中文编码错乱如图：
在这里插入图片描述

解决方法：读取文本文件时，以spark.sparkContext.hadoopFile方法，对字符串的编码进行转换


import org.apache.hadoop.io.{
   LongWritable, Text}
import org.apache.hadoop.mapred.TextInputFormat
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   DataFrame, SparkSession}


object spark_first{
   
  def main(args: Array[String])

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ficery

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark读取压缩文件

主要分享大数据相关的知识，如Spark、Hudi

06-05

1万+

转载请务必注明原创地址为：https://dongkelun.com/2018/05/30/sparkGZ/ 前言本文讲如何用spark读取gz类型的压缩文件，以及如何解决我遇到的各种问题。 1、文件压缩下面这一部分摘自Spark快速大数据分析：在大数据工作中，我们经常需要对数据进行压缩以节省存储空间和网络传输开销。对于大多数Hadoop输出格式来说，我们可以指定一种压缩编......

解决scala_spark本地读取csv中文乱码问题

乔治大哥的博客

02-15

1万+

解决scala_spark本地读取csv中文乱码问题

1 条评论您还未登录，请先登录后发表或查看评论

Scala 中文乱码解决

lpfasd123的博客

07-15

3794

在 Scala 2.11.7 版本上，Mac OS X 或 Linux 系统上编译 Scala 代码，如果出现中文，会出现乱码的情况。解决方案如下，分别编辑以下两个执行脚本：$ vim`which scala`$ vim`which scalac`找到：[-n"$JAVA_OPTS"]||JAVA_OPTS="-Xmx256M -Xms32M"将其替换为：...

scala-unicode:用于为 Scala 生成 unicode 表的 Scala 代码

05-29

Scala-Unicode 该项目包含生成数据表的脚本，用于支持Scala Native和Scala.js平台的。生成的表或序列用于支持java.lang.Character和 Scala Native 中的re2s ，后者用于支持正则表达式（regex），包括java.util.regex._ 。 Scala Native 当前跟踪使用 Unicode 6.2.0 的 JDK8。该项目的起点是 Unicode 7.0.0，它在某种程度上被随意用于第一个uppercase/lowercase实现。 JDK11 是 Java 的下一个生产版本，跟踪 Unicode 10.0.0。较新标准的缺点是它们包含更多的代码点，这会转化为更多的数据和更大的二进制大小。这对下面的目标#4不利，但添加了字体和表情符号。本项目的总体目标如下：编码用于生成Scala Native和Sca

Linux或者Mac OS下 Scala编译中文出现乱码解决方式

Durian_sir的博客

05-28

683

scala 读取文件（中文）异常 thread "main" java.nio.charset.MalformedInputException: Input length = 1

David的博客

11-08

1245

scala 读取文件（中文）异常 thread "main" Source.fromFile java.nio.charset.MalformedInputException: Input length = 1 其实吧，就是你读取的文件中读取了中文。 def read() = { //读取到文件，返回String字符串 Source.fro...

mavan下scala编译中文乱码的问题.以及内存溢出问题解决

weixin_30498807的博客

06-08

333

网上都没有找到我这个问题.都是自己解决的.也不知道后来者能不能遇到关键字: java.lang.StackOverflowError scala not found scala <configuration> <jvmArgs> <jvmArg>-Dfile.encoding=UTF-8</jvmArg&gt...

解决Idea编写Scala中文乱码问题

weixin_46047643的博客

04-24

2166

解决idea中文乱码问题

读取parquet_scala读取parquet文件

weixin_39602579的博客

12-19

954

import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextobject startScala {def main(args: Array[String]): Unit ={val conf = new SparkConf().setAppNam...

Spark SQL数据源-基本操作

热门推荐

主要分享大数据相关的知识，如Spark、Hudi

05-09

1万+

转载请务必注明原创地址为：http://dongkelun.com/2018/03/21/sparkMysql/ 1、基本概念和用法（摘自spark官方文档中文版） Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时，应该首选 JdbcRDD。这是因为结果是以数据框（DataFrame）返回的，且这样 Spark SQL操作轻松或便......

读取csv文件（含中文）报错解决方法

weixin_30497527的博客

07-29

3392

在学习读取csv文件读取时，发现一个问题：网上学习的代码比比皆是，可是举例中csv文件都不存在中文(好多说不支持中文)，所以在尝试含有中文读取时（就是不死心，哈哈），发现了几个报错，在度娘的帮助下已顺利解决。下面就总结下解决过程。 1、csv文件： 2、在红黑联盟中看到了读取csv文件的介绍，于是写了第一次代码：运行结果：从报错中可以看出csv文件并非二进制文件，只...

判断一个字符串是不是乱码

07-18

2061

/** * 用getBytes(encoding)：返回字符串的一个byte数组 * 当b[0]为 63时，应该是转码错误 * A、不乱码的汉字字符串： * 1、encoding用GB2312时，每byte是负数； * 2、encoding用ISO8859_1时，b[

scala 编码

大JAVA解决方案

02-27

829

package ht.demo /** * Created by Lenovo on 2018/2/27. */ object demo1 { def main(args: Array[String]) { var i=3; i+=1; println(i) for (c <-10 to 20){ if(c==15){ ...

spark中读取txt文本时出现乱码

XIAOMO__的博客

08-23

734

spark中读取txt文本时出现乱码：我的属于第二种文件有问题。 (user03,CompactBuffer((7,(��,user03)))) (user11,CompactBuffer((6,(�Ļ�,user11)))) (user06,CompactBuffer((4,(��,user06)))) (user10,CompactBuffer((16,(�Ļ�,user10)), (6,(��,user10)))) (user02,CompactBuffer((2,(��,us.

中文字符用java.lang.String转码的小结（Java/Scala）

碣石观海的博客

07-10

1559

先给出最保险的转码操作，既无视平台编码，也无视字符编码： /** 保证接收到的字符串转为 UTF-8 格式 * 以 UTF-8 格式编码，再以 UTF-8 格式解码 */ val strUTF8 = new String(strGBK.getBytes("UTF-8"), "UTF-8") 1. 对字符串的编解码使用了如下四个方法（ java.lang.String ），还有其它的...

新手速学之spark快速读写mysql以及解决中文乱码问题

wuzb的博客

02-06

5208

1.spark快速读取mysql val spark = SparkSession.builder.appName("bidInfo").getOrCreate() val sc = spark.sparkContext val properties = new Properties() properties.put("user","root") properties.put("passwo

scala用spark读取csv文件并读取条数

04-25

您好！关于您的问题，可以使用以下代码使用Spark和Scala读取CSV文件并计算行数： ```scala import org.apache.spark.sql.SparkSession object ReadCSVFile { def main(args: Array[String]) { val spark = SparkSession.builder.appName("Read CSV File").getOrCreate() val csvFile = "path/to/your/csv/file.csv" val df = spark.read.format("csv").option("header", "true").load(csvFile) val count = df.count() println(s"Number of rows in CSV file '$csvFile' : $count") spark.stop() } } ``` 请将"path/to/your/csv/file.csv"替换为您的CSV文件的路径。这段Scala代码将使用SparkSession对象创建一个SparkSession实例，然后从CSV文件中读取数据帧，使用“csv”格式并指定首行为标题。然后计算帧中的行数并打印输出行数。希望这可以帮助您解决问题。如果您有其他问题，请随时提出！