spark on hive

最新推荐文章于 2024-06-06 10:32:00 发布

且听风雨999

最新推荐文章于 2024-06-06 10:32:00 发布

阅读量3.6k

点赞数 1

分类专栏： machine learning hadoop spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haidao2009/article/details/49507651

版权

machine learning 同时被 3 个专栏收录

23 篇文章 2 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

很多时候用spark处理数据，处理完后需要写回hive 数据仓库。这时候用spark on hive 效率会高很多。

rdd 处理完后，
先创建一个schema

schema = StructType([
StructField(“item_id”,StringType(), True),
StructField(“feed_id”,StringType(), True),
………
StructField(“ds”,StringType(), True)]
)

然后rdd转换为hive df。注意是hive df 。不是sql df
df=hiveContext.createDataFrame(rdd,schema)
hiveContext.sql(‘use database’)
hiveContext.sql(‘SET hive.exec.dynamic.partition=true ‘)
hiveContext.sql(‘SET hive.exec.dynamic.partition.mode=nonstrict ‘)
hiveContext.sql(‘SET hive.exec.max.dynamic.partitions.pernode = 1000 ‘)
hiveContext.sql(‘SET hive.exec.max.dynamic.partitions=1000 ‘)
hiveContext.sql(‘set hive.exec.reducers.bytes.per.reducer=500000000 ‘)

dfw=DataFrameWriter(df)
dfw.partitionBy().insertInto(‘table’)
partitionBy 是分区表，如果没有，则直接insert。如果没有表，那就dfw.saveAsTable()直接写入

且听风雨999

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark on hive

很多时候用spark处理数据，处理完后需要写回hive 数据仓库。这时候用spark on hive 效率会高很多。rdd 处理完后，先创建一个schemaschema = StructType([ StructField(“item_id”,StringType(), True), StructField(“feed_id”,StringType(), True), …
复制链接

扫一扫

专栏目录

且听风雨999 CSDN认证博客专家 CSDN认证企业博客

码龄16年

99: 原创

17万+: 周排名

43万+: 总排名

45万+: 访问

: 等级

3102: 积分

199: 粉丝

255: 获赞

115: 评论

173: 收藏

私信

关注

热门文章

分类专栏

machine learning 23篇
数据结构 6篇
skill 6篇
实习 1篇
工具 5篇
嵌入式 12篇
linux 内核 4篇
杂文 5篇
大数据 8篇
hadoop 4篇
mahout 1篇
算法 3篇
python 2篇
nlp 8篇
rnn 3篇
spark 1篇
pandas
数据库 8篇
linux 23篇
usb 2篇
mini2440 1篇
面试 2篇
android 8篇

最新评论

浅谈 Adaboost 算法
程序员飞鱼子: 理性的可以看公式
浅谈 Adaboost 算法
CV_er: 看了那么多博客，也就你的最后一段话解答了我的困惑，好多博主就想当然的说，给错误样本施加更大的权重，然后呢？没然后了。给错误样本施加更大的权重只是手段，最终目的肯定是想让错误率（损失值）下来
浅谈 Adaboost 算法
CV_er: 你说的很感性，你能用具体数字来阐述么？
浅谈 Adaboost 算法
程序员飞鱼子: 为什么每次迭代都要把分错的点的权值变大呢？这样有什么好处呢？回复：因为上一次你把他识别错了，所以要加重权值，争取这一次把他识别出来，就这么简单啊。。。。。。
浅谈 Adaboost 算法
爆头娃: 个人看法，各种分类器有种各司其职的感觉，第n个分类器做完他的工作后把自己分类对的权值降低说明自己分类对的样本自己多卖力，不需要后面的分类器操心了，而自己没做分类对的样本提高权值让后面的分类器多当心。最后每个分类器都去分类自己擅长的样本。但是我还有个疑惑，就是觉得分类器迭代的顺序也会对线性组合成的强分类器的效果产生影响，不知道对不对，我觉得弱分类器也分强弱吧，如果上来就学习比较弱的弱分类器，相对来说效果会不会不好。。还得看些更专业的文献才行，。看了两天书，感觉不行，得看文献。。。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。