pyspark将RDD转成dict

最新推荐文章于 2024-05-03 11:32:35 发布

明子哥哥

最新推荐文章于 2024-05-03 11:32:35 发布

阅读量3.7k

点赞数

分类专栏： pyspark 文章标签：大数据 hadoop hive spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mingo220/article/details/104015859

版权

pyspark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在日常的数据处理过程，需要生成一个dict。
词典数据来源主要有有：HIVE表、HDFS上的文件。

1. 从HIVE表读数据并转成dict

from pyspark import SparkContext
from pyspark.sql import HiveContext,SparkSession
sc = SparkContext()
sql_context = HiveContext(sc)

sql_data = sqlContext.sql("SELECT key,value from db.table")
sql_data_rdd = sql_data.rdd.map(lambda x : (x[0],x[1]))
my_dict = sql_data_rdd.collectAsMap()

2. 从HDFS读文件并转成dict

def map_2_dic(r):
	# r 表示一行文本
	filds = r.strip().split('\t')
	# filds[0]是key, filds[1]是value
	return filds[0], filds[1]

textRDD = sc.textFile("《your hdfs file path》")
my_dict = textRDD.map(map_2_dic).collectAsMap()

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

明子哥哥 CSDN认证博客专家 CSDN认证企业博客

码龄9年

22: 原创

11万+: 周排名

56万+: 总排名

6万+: 访问

: 等级

624: 积分

6: 粉丝

23: 获赞

12: 评论

151: 收藏

私信

关注

热门文章

分类专栏

理财
python 3篇
pyspark 5篇
keep learning 4篇
实战总结 10篇
NLP 3篇
java 1篇

最新评论

深度学习中常用乘法矩阵乘、点乘、内积
洛兮银儿: 请问第二个外积，你说又叫点乘，那是不是就是深度学习中的dot product呀？
计算三个经纬度坐标的夹角
山中人_Kong: 以上评论第二点错误可以忽略，l1的实际传参格式为[经度，纬度]
计算三个经纬度坐标的夹角
山中人_Kong: 发现3个问题： 1）第28行空格会导致缩进问题； 2）get_angle函数传参l1，l2和l3的格式没有定义，经纬度之间如果用逗号隔开会出错； 3）计算结果错误，验证了两组数据输出结果都不对。
tensorflow设置部分参数可训练，冻结部分参数
zyr_freedom: 这个代码片段可以完成网络训练时部分层梯度不更新，也就是梯度固定；但是你也可以选择保存所有参数，也就是说参数的更新和保存不是在一起完成的，都可以自由选择的。
tensorflow设置部分参数可训练，冻结部分参数
print('多喝热水'): 博主请问一个问题，我在更改了update_vars_list里的参数后，网络保存下来的checkpoint文件里只有update_vars_list包含的参数，举个例子，我的网络是16层的网络，现在只训练后三层，冻结后checkpoint从保存16层的网络参数变成了只保存后三层的网络参数，这样是对的吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。