环境:
- python2.7
- pyspark 2.4.3
用python读入一个字典,然后对spark SQL dataframe对中文做处理的时候,匹配不到,这个是中文编码问题。
python2.x 可用utf-8编码,但是pyspark是用unicode编码的,所以涉及数据交互的时候必须用进行编码和解码;
python2.x 的中文是utf-8编码,需要 x.decode("utf-8") 转换为 unicode;
pyspark 的中文是unicode编码,转换的话可用 x.encode("utf-8")编码成utf-8;