![](https://img-blog.csdnimg.cn/20200320174900543.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
文章平均质量分 75
Python Blog
HaiwiSong
一切只为让自己变得更优秀!
展开
-
PySpark基于Conda自定义Python运行环境
文章目录背景conda创建环境并zip打包上传zip包到hdfsspark-submit提交参数设置参考背景在使用PySpark进行开发时,面临的痛点问题之一是Driver或Executor上运行Python的包依赖的问题,解决办法之一是可以通过Conda创建环境解决Python包依赖的问题,具体为在本地机器打包Conda创建的运行环境为zip包,然后zip包上传hdfs,然后在spark-submit提交命令中添加archives和spark.pyspark.python参数的方式解决。conda创原创 2021-03-13 15:08:39 · 2220 阅读 · 0 评论 -
Python操作hdfs
下面代码中的hosts为hdfs中的namenode节点,NameNode节点查看方法见学习笔记之Hdfs的Ha高可用原理snakebite通过rpc方式操作hdfsgithub:https://github.com/spotify/snakebite文档:https://snakebite.readthedocs.io/en/latest/client.html#coding=u...原创 2019-03-05 17:51:49 · 2544 阅读 · 0 评论 -
python中base64加解密图片进行post传输
在post中传输图片时,通过对图片进行base64加密成字符串传输,在服务端在base64解码为图片在一些场景中往往更简单、高效。客户端代码:#coding=utf-8import requests,base64,json,os,shutil,cv2import numpy as npimport logginglogging.basicConfig( level=lo原创 2018-02-07 12:44:10 · 5846 阅读 · 0 评论 -
Python执行hive sql
该python脚本是用于执行hive脚本的,需要设置hive的可执行环境变量,其实质转化为shell下命令 hive -e ‘sql语句’ 的方式执行,然后把结果重定向到控制台显示。注:由于该脚本是直接调用shell中的hive命令,所以需要在安装hive的服务器上执行。原创 2016-08-19 15:18:57 · 9839 阅读 · 0 评论 -
Python Cheat Sheet
文章目录Python基础知识导入数据:Python备忘单SciPy备忘单:Python中的线性代数NumPy备忘单:Python中的数据分析Matplotlib备忘单:用Python绘图Python Seaborn:统计数据可视化Scikit-Learn Cheat Sheet:Python机器学习PySpark备忘单:Python中的SparkPySpark备忘单:Python中的Spark D...原创 2019-03-07 10:36:33 · 1191 阅读 · 0 评论 -
一文弄懂PySpark原理与实践
文章目录一、PySpark 的背后原理二、文档三、pyspark读写dataframe四、通过spark-submit提交任务模板示例五、代码示例1、wordcount.py2、使用PySpark语言开发操作Hive一、PySpark 的背后原理架构图:其中白色部分是新增的Python进程,在Driver端,通过Py4j实现在Python中调用Java的方法,即将用户写的PySpark程序...原创 2019-03-12 11:21:20 · 13490 阅读 · 1 评论 -
Spark同步数据到线上数据库的一个坑
背景使用PySpark抽取数据同步到数据库时候(例如:clickhouse、mysql等数据库),使用RDD的foreachPartition、mapPartitions或mapPartitionsWithIndex等函数发现有的分区会执行多次,导致重复同步数据问题。原因及解决方案可以通过mapPartitionsWithIndex的函数打印partitionIndex,然后在日志查看的方式...原创 2019-08-23 17:09:10 · 1104 阅读 · 1 评论