自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python用openpyxl操作excel

Win32 COM操作office但讲不清楚,可能不支持夸平台,linux是否能用?xlrd(读excel)表: xlrd读大表效率高于openpyxl xlwt(写excel)表: xlrd和xlwt对版本上兼容不太好,很多新版excel有问题。openpyxl(可读写excel表)专门处理Excel2007及以上版本产生的xlsx文件,xls和xlsx之间转换容易如果编码是“gb2312”

2016-06-18 15:30:46 34323 5

原创 hive表的存储格式; ORC格式的使用

hive表的源文件存储格式有几类: 1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以方式一create table i

2016-06-17 20:02:22 47889 6

原创 pthon核心编程-读书笔记:知识点摘录与总结(方便理解和快速记忆)

Python 中的列表(大小可变的数组)和字典(哈希表)就是内建于语言本身的。在核心语言中提供这些重要的构建单元,可以鼓励人们使用它们, 缩短开发时间与代码量,产生出可读性更好的代码。C不提供, c++功能不够简洁。 面向对象,可升级:Python 提倡简洁的代码设计、高级的数据结构和模块化的组件,确保灵活性、一致性并缩短必要的调试时间            扩展性:兼容扩展c

2016-06-10 11:56:49 3596

原创 快速排序quick_sort(python的两种实现方式)

排序算法有很多,目前最好的是quick_sort:unstable,spatial complexity is nlogN.快速排序原理python实现严蔚敏的 datastruct书中有伪代码实现,因为Amazon面试需要排序,所以用python实现了。两种实现方法,功能一致,效率没测,请高手留言第一种实现标准算法,严蔚敏书中的伪代码实现#!/usr/bin/python# -*- co

2016-06-08 15:41:39 24861 1

原创 hive高阶1--sql和hive语句执行顺序、explain查看执行计划、group by生成MR

hive语句执行顺序msyql语句执行顺序代码写的顺序:select ... from... where.... group by... having... order by.. 或者from ... select ...代码的执行顺序:from... where...group by... having.... select ... order by...hive 语句执行顺序大致

2016-06-02 20:22:37 32150 10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除