pylucene分别安装在linux和windows(官方无Windows版的pylucene,要自编译)

pylucene 安装 目前python很多包只支持32位,不支持64位。所以安装python尽量使用32位。不要64位,否则很多功能用不了 http://blog.csdn.net/orzli/article/details/12401507 http://www.shangxueba.com/jingyan/2262010.html http://blog.163.co...
阅读(621) 评论(0)

动态规划:样例讲解一篇通

概念讲解动态规划是把大问题分解成子问题(但不能简单的分解,子问题要具有相同子结构的解),并综合子问题的解,导出大问题的解,问题求解耗时会按问题规模呈幂级数增加。基本方法:为了节约重复求相同子问题的时间,引入一个数组,不管它们是否对最终解有用,把所有子问题的解存于该数组中。 举例【问题】 求两字符序列的最长公共字符子序列 假设,两个 序列 a[],b[],有公共最长子序列 z[] 则必须具有如下性质:...
阅读(309) 评论(0)

java中static特殊性和final(static成员直接被访问,this不能用在static方法中,static不可访问非static)

java的static关键字 java中,static修饰的成员变量和成员方法叫静态变量和静态方法,不依赖类特定的实例,被类的所有实例共享。 静态变量或类变量 和 实例变量,区别是: 静态变量在内存中只有一个拷贝(节省内存),JVM只分配一次内存,在加载类的过程中完成静态变量的内存分配,用类名直接访问,也可以通过对象来访问(不推荐,尽量不用)。 实例变量在初始化后一个实例时为该实...
阅读(299) 评论(0)

诗两首------重庆项目出差有感

五言无题 山城林水香 霓虹夜未央 谁语临江客 煮酒梦他乡夜游洪崖洞 山居林楼沁水香 月影霓虹夜未央 笑闻谁语临江客 白衣煮酒梦他乡...
阅读(993) 评论(2)

eclipse安装和中文汉化,以及配置

官网下载 eclipse http://www.eclipse.org/downloads/eclipse-packages/ ———-选择 “Eclipse IDE for Java Developers”,确定是64bit还是 32的 或者http://www.eclipse.org/downloads/ 直接下载推荐版本 下载后安装,自定义安装目录 注意,安装时提示没有...
阅读(13410) 评论(3)

hive指定hadoop执行队列

指定队列的命令:有三种:set mapred.job.queue.name=queue3; SET mapreduce.job.queuename=queue3; set mapred.queue.names=queue3; 老版本一般 mapred开头 新版本是mapreduce开头 老版本对应的新版本参数可以查出来队列自己设定,测试时注意select * from tb 不会产生map re...
阅读(5171) 评论(0)

python用openpyxl操作excel

Win32 COM操作office但讲不清楚,可能不支持夸平台,linux是否能用?xlrd(读excel)表: xlrd读大表效率高于openpyxl xlwt(写excel)表: xlrd和xlwt对版本上兼容不太好,很多新版excel有问题。openpyxl(可读写excel表)专门处理Excel2007及以上版本产生的xlsx文件,xls和xlsx之间转换容易如果编码是“gb2312”...
阅读(9561) 评论(3)

hive表的存储格式; ORC格式的使用

hive表的源文件存储格式有几类: 1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以方式一create table i...
阅读(6734) 评论(4)

pthon核心编程-读书笔记:知识点摘录与总结(方便理解和快速记忆)

Python 中的列表(大小可变的数组)和字典(哈希表)就是内建于语言本身的。在核心语言中提供这些重要的构建单元,可以鼓励人们使用它们, 缩短开发时间与代码量,产生出可读性更好的代码。C不提供, c++功能不够简洁。   面向对象, 可升级:Python 提倡简洁的代码设计、高级的数据结构和模块化的组件,确保灵活性、 一致性并缩短必要的调试时间             扩展性:兼容扩展c...
阅读(2215) 评论(0)

快速排序quick_sort(python的两种实现方式)

排序算法有很多,目前最好的是quick_sort:unstable,spatial complexity is nlogN. 快速排序原理python实现严蔚敏的 datastruct书中有伪代码实现,因为Amazon面试需要排序,所以用python实现了。 两种实现方法,功能一致,效率没测,请高手留言 第一种实现标准算法,严蔚敏书中的伪代码实现 #!/usr/bin/python # -*- co...
阅读(3352) 评论(0)

hive高阶1--sql和hive语句执行顺序、explain查看执行计划、group by生成MR

hive语句执行顺序msyql语句执行顺序代码写的顺序:select ... from... where.... group by... having... order by.. 或者 from ... select ... 代码的执行顺序:from... where...group by... having.... select ... order by... hive 语句执行顺序大致...
阅读(10592) 评论(2)

hive中的NULL(hive空值处理)

HIVE中默认将NULL存为\N,可以在线上用hadoop fs -cat查看源文件,文件中存储大量\N, 这样量大会浪费大量空间。如果用java、python操作源数据时要注意解析。 另外,hive表的源文件中默认,列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明)。元素间分隔符\002,map中key和value的分隔符为\003。...
阅读(8649) 评论(2)

hive分区partition(动态和静态分区混合使用; partition的简介)

分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样where中给出列值时,只需根据列值直接扫描对应目录下的数据,不扫面其他不关心的分区,快速定位,查询节省大量时间。分动态和静态分区两种 动态分区1)不显示的给出分区名,根据列的取值自动建立对应分区(多少种取值,多少种分区),所以需要限制最大分区数: SET hive.exec.dynamic.partition=t...
阅读(1512) 评论(0)

hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)

数据做压缩和解压缩总会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销 最好对那些I/O密集型的作业使用数据压缩 hive表的存储格式为     TEXTFILE     SEQUENCEFILE(三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩)     RCFILE     自定义格式...
阅读(5071) 评论(0)

shell命令执行hive脚本(hive交互,hive的shell编程)

Hive执行方式Hive的hql命令执行方式有三种:1、CLI 方式直接执行 2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”) 3、作为独立文件,通过shell调用 hive –f或hive –i执行执行 方式1键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use datab...
阅读(8626) 评论(0)

hive分组排序 取top N

pig可以轻松获取TOP n。书上有例子hive中比较麻烦,没有直接实现的函数,可以写udf实现。还有个比较简单的实现方法: 用row_number,生成排名序列号。然后外部分组后按这个序列号多虑,样例代码如下 select a.* from( select 品牌,渠道,档期,count/sum/其它() as num row_number() over (partition by 品...
阅读(3700) 评论(0)

python辅助开发模块(非官方)如pil,mysqldb,openpyxl,xlrd,xlwd

官方文档 只是支持win32, 不支持win64 所以很麻烦 民间高人,集中做了一堆辅助库,下载后,用python安装目录下的scripts中,pip和easy_install就可以安装了 python非官方辅助开发模块库: http://www.lfd.uci.edu/~gohlke/pythonlibs/#bitarray 如PIL官网http://www.pyth...
阅读(672) 评论(0)

hive日志位置(日志定位报错:Failed with exception Unable to move sourcehdfs://namenode/tmp/hive-pmp_bi/h)

Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。 2. Job 日志,记录了Hive 中job的执行的历史过程。 日志查看方法1,在本地运行机器上hive日志存储位置在本机上,不是hadoop上: 在hive/conf/ hive-log4j.properties 文件中记录, 该文件如果没有,就是使用默认,默认的存储情况: hive.ro...
阅读(2200) 评论(0)

linux的 压缩与解压 命令集

bzip2压缩费时但效果好,而且支持hadoop的hdfs文件切分,gzip不行bzip2 [-cdz] 文件名-c :将压缩的过程输出到屏幕 -d :解压缩 -z :压缩 -# :压缩比的参数,-9最佳最慢,-1最大最快 (bzcat可以直接查看bz文件内容)压缩:bzip2 filename = bzip2 -z filename bzip2 -9 filename 解压:bunzip2 fil...
阅读(466) 评论(0)

hive的strict模式;where,group by,having,order by同时使用的执行顺序

主要限制三种情况 (1) 有partition的表查询需要加上where子句,筛选部分数据实现分区裁剪,即不允许全表全分区扫描,防止数据过大 (2) order by 执行时只产生一个reduce,必须加上limit限制结果的条数,防止数据量过大造成1个reduce超负荷 (3) join时,如果只有一个reduce,则不支持笛卡尔积查询。也就是说必须要有on语句的关联条件,做自然连接。 ...
阅读(1289) 评论(0)
426条 共22页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1005526次
    • 积分:11592
    • 等级:
    • 排名:第1381名
    • 原创:243篇
    • 转载:183篇
    • 译文:0篇
    • 评论:104条
    文章分类
    最新评论