2018年08月_ClaireQi

08月 07月 04月 01月

原创 python中直接将文件写入HDS

在项目中遇到使用spark中的saveAsTextFile()保存序列化后的文件到HDFS出现部分数据缺失因此希望可以通过python脚本直接将数据写入到HDFS中，尝试hdfs库失败后，发现pywebhdfs库可以实现这一功能。使用pywebhdfs库，直接将文件保存到HDFS中。>>> hdfs = PyWebHdfsClient(host='host',por...

2018-08-26 13:02:32 868

原创 git 项目开发常用操作

一、git简介与安装Git是目前世界上最先进的分布式版本控制系统。在Linux上安装git首先输入git,看看系统有没有安装git$ git若没有安装则输入$ sudo apt-get install git二、创建版本库在某个目录下通过git init命令将这个目录变成Git可以管理的仓库$ git init添加文件到Git仓库，分两步：添加文件到仓库，使用命令git ...

2018-08-24 15:51:52 195

转载背包问题

令Vi、Wi 分别表示第i个物品的价值和体积，V(i,j)表示前i个物品能装入背包容量为j的背包的最大价值，有以下动态规划函数：当背包容量j小于当前物品的重量wi时，物品i肯定不能放到背包里，则当前最优解为V(i-1,j)；当背包容量j大于当前物品的重量wii时，物品i可以放到背包里，但是到底放不放呢？那就要看不放入物品i（最大价值是V(i-1,j)）和放入物品j（最大价值是V(i-1...

2018-08-19 19:42:20 208

在pyspark中调用类方法，报错Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in co...

2018-08-16 15:26:26 3671 1

原创 spark中使用repartition没有效果

在使用repartition()时出现下述问题：print(rdd.getNumPartitions())rdd.repartition(100)print(rdd.getNumPartitions())两次打印的结果相同产生上述问题的原因有两个：首先 repartition()是惰性求值操作，需要执行一个action操作才可以使其执行。其次，repartition()操作会...

2018-08-16 14:49:50 6000

原创 spark调优

【1】 spark.default.parallelism此参数用于设置每个stage经TaskScheduler进行调度时生成task的数量，此参数未设置时将会根据读到的RDD的分区生成task，即根据源数据在hdfs中的分区数确定，若此分区数较小，则处理时只有少量task在处理，前述分配的executor中的core大部分无任务可干。通常可将此值设置为num-executors*exec...

2018-08-16 14:23:23 173

原创在spark上运行Python脚本遇到“ImportError: No module name xxxx”

在spark上运行Python脚本遇到“ImportError: No module name xxxx”这是因为运行Python脚本的集群上的Python环境里缺乏脚本运行需要的依赖。根据所需依赖的不同性质可以分为3类：（1）单个的*.py或者*.py[co]（2）自建模块（3）自包含的依赖项（4）复杂依赖【1】只依赖于单个文件（only depend on a si...

2018-08-03 17:20:25 10986 2

Understand-5.0.948-Windows-64bit.exe

Windows下的静态代码分析工具Understand-5.0.948-Windows-64bit，可以绘制流程图，方便阅读代码。

2020-07-08

统计学习方法.李航.2012

统计学习很好的一本参考书，分享出来以供大家参考学习。

2017-10-21

C++ Primer Plus（第6版）中文版》习题答案

C++ Primer Plus（第6版）中文版》习题答案，希望对大家能有帮助。

2015-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ClaireQi的博客