大数据
sunflower_sara
NLP, 计算机视觉,机器学习,深度学习,以及相关的其他内容
展开
-
【Pyspark】Spark导入zip文件/上传zip文件
Spark上传zip文件步骤一、启动spark的时候addfile zip文件#zip文件原始路径file_path = "./filename.zip"#启动sparkspark = SparkSession.builder.appName("space_name").enableHiveSupport().getOrCreate()sc = spark.sparkContext# 添加文件到spark的空间,位于根目录下sc.addFile(file_path)...原创 2020-07-17 11:00:48 · 2650 阅读 · 0 评论 -
【pyspark】表的读写创建
创建df_spark:df_pandas= pd.DataFrame({"list_name": list_})df_spark=spark.createDataFrame(df_pandas)保存表:# # 写入临时表中spark.sql("use db_name")df_saprk_hrouteinfo_all2.write.mode("overwrite").f...原创 2020-01-19 19:42:10 · 2115 阅读 · 0 评论 -
【Pyspark 】GroupBy分组排序
分组排序:https://blog.csdn.net/weixin_40161254/article/details/88817225df_spark_hotpoi = spark.sql("select routeid, cityid, row_number() over (partition by routeid order by sortno asc) as rank fro...原创 2020-01-19 19:39:59 · 6320 阅读 · 0 评论 -
【Pyspark】Pyspark入门和常用知识点
PySpark官方教程:http://spark.apache.org/docs/latest/api/python/pyspark.sql.htmlpyspark的使用和操作(基础整理)https://blog.csdn.net/cymy001/article/details/78483723各种函数的例子:https://blog.csdn.net/qq_238604...原创 2020-01-19 19:42:29 · 511 阅读 · 0 评论 -
【Pyspark】 一列变多列 、分割 一行中的list分割转为多列 explode,多列变一列(可保持原顺序), 多行变一行
【Pyspark】 一列变多列 分割 一行中的list分割转为多列 explode官方例子:Pythonpyspark.sql.functions.explode()Exampleshttps://www.programcreek.com/python/example/98237/pyspark.sql.functions.explode根据某个字段内容进行分割,然后...原创 2020-01-19 19:12:55 · 12783 阅读 · 2 评论 -
【Pyspark】Dataframe添加新的一列
1. lit 添加常量 字符串若需要添加一列固定值,比如地名、邮编、标号、字符串之类的,可以直接使用lit 添加常量Eg: 添加字符串import pyspark.sql.functions as Fd7=d61.withColumn('line_results',F.lit(string_line))Eg: 添加常量10from pyspark.sql.funct...原创 2020-01-19 19:02:20 · 10859 阅读 · 1 评论 -
【大数据】SQL\pandas\pyspark的DataFrame的拼接
SQL UNION 竖向拼接参考<https://www.w3school.com.cn/sql/sql_union.asp>竖向拼接dataframe:SQL UNION 和 UNION ALL 操作符 SQL UNION 语法SELECT column_name(s) FROM table_name1UNIONSELECT column_name(s...原创 2020-01-13 10:24:03 · 3167 阅读 · 0 评论 -
sql 操作总结
SQL语句必知必会https://blog.csdn.net/yuhk231/article/details/87279737SQL速学教程https://blog.csdn.net/yuhk231/article/details/87279737Sql强制类型转换Cast(X as double )SQL除法x/y over()https://www....原创 2019-08-13 01:21:32 · 135 阅读 · 0 评论 -
大数据及开发相关的一些名词
kafka:分布式日志收集系统日志收集+消息ETL:数据抽取、转换、加载Ad-hoc:即席查询(查询的时候才知道查询的是什么)PY4JPy4J 是一个用 Python 和 Java 编写的库。通过 Py4J,Python程序 能够动态访问 Java虚拟机 中的 Java对象,Java程序 也能够回调 Python对象。...原创 2019-12-11 10:14:10 · 242 阅读 · 0 评论