- 博客(7)
- 资源 (5)
- 收藏
- 关注
原创 python中直接将文件写入HDS
在项目中遇到使用spark中的saveAsTextFile()保存序列化后的文件到HDFS出现部分数据缺失因此希望可以通过python脚本直接将数据写入到HDFS中,尝试hdfs库失败后,发现pywebhdfs库可以实现这一功能。使用pywebhdfs库,直接将文件保存到HDFS中。>>> hdfs = PyWebHdfsClient(host='host',por...
2018-08-26 13:02:32 868
原创 git 项目开发常用操作
一、git简介与安装Git是目前世界上最先进的分布式版本控制系统。在Linux上安装git首先输入git,看看系统有没有安装git$ git若没有安装则输入$ sudo apt-get install git二、创建版本库在某个目录下通过git init命令将这个目录变成Git可以管理的仓库$ git init添加文件到Git仓库,分两步:添加文件到仓库,使用命令git ...
2018-08-24 15:51:52 195
转载 背包问题
令Vi、Wi 分别表示第i个物品的价值和体积,V(i,j)表示前i个物品能装入背包容量为j的背包的最大价值,有以下动态规划函数:当背包容量j小于当前物品的重量wi时,物品i肯定不能放到背包里,则当前最优解为V(i-1,j);当背包容量j大于当前物品的重量wii时,物品i可以放到背包里,但是到底放不放呢?那就要看不放入物品i(最大价值是V(i-1,j))和放入物品j(最大价值是V(i-1...
2018-08-19 19:42:20 208
转载 spark调用类内方法
在pyspark中调用类方法,报错Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in co...
2018-08-16 15:26:26 3671 1
原创 spark中使用repartition没有效果
在使用repartition()时出现下述问题:print(rdd.getNumPartitions())rdd.repartition(100)print(rdd.getNumPartitions())两次打印的结果相同产生上述问题的原因有两个:首先 repartition()是惰性求值操作,需要执行一个action操作才可以使其执行。其次,repartition()操作会...
2018-08-16 14:49:50 6000
原创 spark调优
【1】 spark.default.parallelism此参数用于设置每个stage经TaskScheduler进行调度时生成task的数量,此参数未设置时将会根据读到的RDD的分区生成task,即根据源数据在hdfs中的分区数确定,若此分区数较小,则处理时只有少量task在处理,前述分配的executor中的core大部分无任务可干。通常可将此值设置为num-executors*exec...
2018-08-16 14:23:23 173
原创 在spark上运行Python脚本遇到“ImportError: No module name xxxx”
在spark上运行Python脚本遇到“ImportError: No module name xxxx”这是因为运行Python脚本的集群上的Python环境里缺乏脚本运行需要的依赖。根据所需依赖的不同性质可以分为3类:(1)单个的*.py或者*.py[co](2)自建模块(3)自包含的依赖项(4)复杂依赖【1】只依赖于单个文件(only depend on a si...
2018-08-03 17:20:25 10986 2
Understand-5.0.948-Windows-64bit.exe
2020-07-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人