自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (5)
  • 收藏
  • 关注

原创 python中直接将文件写入HDS

在项目中遇到使用spark中的saveAsTextFile()保存序列化后的文件到HDFS出现部分数据缺失因此希望可以通过python脚本直接将数据写入到HDFS中,尝试hdfs库失败后,发现pywebhdfs库可以实现这一功能。使用pywebhdfs库,直接将文件保存到HDFS中。>>> hdfs = PyWebHdfsClient(host='host',por...

2018-08-26 13:02:32 868

原创 git 项目开发常用操作

一、git简介与安装Git是目前世界上最先进的分布式版本控制系统。在Linux上安装git首先输入git,看看系统有没有安装git$ git若没有安装则输入$ sudo apt-get install git二、创建版本库在某个目录下通过git init命令将这个目录变成Git可以管理的仓库$ git init添加文件到Git仓库,分两步:添加文件到仓库,使用命令git ...

2018-08-24 15:51:52 195

转载 背包问题

令Vi、Wi 分别表示第i个物品的价值和体积,V(i,j)表示前i个物品能装入背包容量为j的背包的最大价值,有以下动态规划函数:当背包容量j小于当前物品的重量wi时,物品i肯定不能放到背包里,则当前最优解为V(i-1,j);当背包容量j大于当前物品的重量wii时,物品i可以放到背包里,但是到底放不放呢?那就要看不放入物品i(最大价值是V(i-1,j))和放入物品j(最大价值是V(i-1...

2018-08-19 19:42:20 208

转载 spark调用类内方法

在pyspark中调用类方法,报错Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in co...

2018-08-16 15:26:26 3671 1

原创 spark中使用repartition没有效果

在使用repartition()时出现下述问题:print(rdd.getNumPartitions())rdd.repartition(100)print(rdd.getNumPartitions())两次打印的结果相同产生上述问题的原因有两个:首先 repartition()是惰性求值操作,需要执行一个action操作才可以使其执行。其次,repartition()操作会...

2018-08-16 14:49:50 6000

原创 spark调优

【1】 spark.default.parallelism此参数用于设置每个stage经TaskScheduler进行调度时生成task的数量,此参数未设置时将会根据读到的RDD的分区生成task,即根据源数据在hdfs中的分区数确定,若此分区数较小,则处理时只有少量task在处理,前述分配的executor中的core大部分无任务可干。通常可将此值设置为num-executors*exec...

2018-08-16 14:23:23 173

原创 在spark上运行Python脚本遇到“ImportError: No module name xxxx”

在spark上运行Python脚本遇到“ImportError: No module name xxxx”这是因为运行Python脚本的集群上的Python环境里缺乏脚本运行需要的依赖。根据所需依赖的不同性质可以分为3类:(1)单个的*.py或者*.py[co](2)自建模块(3)自包含的依赖项(4)复杂依赖【1】只依赖于单个文件(only depend on a si...

2018-08-03 17:20:25 10986 2

Understand-5.0.948-Windows-64bit.exe

Windows下的静态代码分析工具Understand-5.0.948-Windows-64bit,可以绘制流程图,方便阅读代码。

2020-07-08

统计学习方法.李航.2012

统计学习很好的一本参考书,分享出来以供大家参考学习。

2017-10-21

C++ Primer Plus(第6版)中文版》习题答案

C++ Primer Plus(第6版)中文版》习题答案,希望对大家能有帮助。

2015-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除