大数据技术
文章平均质量分 57
专注于elasticsearch、大数据处理分析等技术
珂兮
冲鸭!
展开
-
Pycharm 上配置spark相关环境
spark的依赖环境比较多,需要Java JDK、hadoop的支持。 由于spark本身是用scala实现的,所以建议使用scala。如果是使用scala语言,需要 Scala2.11.x版本,hadoop最好安装2.6以上版本。 Scala2.11.x安装 官网网址:https://www.scala-lang.org/download/ 下载得到Scala的msi文件后,可以双击执行安...原创 2018-10-30 21:04:24 · 1778 阅读 · 0 评论 -
Python 读取大文件(相关总结)
Python 读取 超大文本会带来 以下问题: 1、内存溢出; 2、处理效率低; 处理问题1的思路有如下几种方案: 1、分块读取。 1) read()函数会将数据一次性读取到内存中,可通过将数据分块读取,readline()函数逐行读取; 2) 一次限制读取的文件的大小,利用iter和yield来控制每次读取的文件位置; # 利用生成器是可以迭代的,但只可以读取它一...原创 2018-12-05 17:18:35 · 1800 阅读 · 1 评论