自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据王子

学术交流

  • 博客(39)
  • 收藏
  • 关注

原创 欢迎使用CSDN-markdown编辑器

python与redis的事1. redis安装1.1 windows下安装下载地址:https://github.com/MSOpenTech/redis/releases。Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。打开一个 cmd 窗口 使用cd命令切换目

2017-02-21 17:50:45 282

转载 各种距离的实现

1 /*  2 特征向量相似度和距离的计算  3   4 相似度:  5 ·夹角余弦  6 ·相关系数  7 ·Dice  8 ·Jaccard  9  10 距离 11 ·明氏距离 12 ·欧氏距离 13 ·马氏距离 14 ·Jffreys & Matusita 距离 15 ·Mahalanobis 距离,未实现,协方差矩阵 16 ·C

2015-12-31 17:10:34 806

原创 Tez安装整体过程以及各节点的配置

在/etc/profile中修改环境变量如下export JAVA_HOME=/usr/java/jdk1.7.0_55-clouderaexport MAVEN_HOME=/usr/local/apache-maven-3.0.3export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$MAVEN_HOME/bin:$PATHexport CL

2015-12-31 17:06:30 5482

原创 事务的隔离级别

数据库事务的隔离级别有4个,由低到高依次为Read uncommitted、Read committed、Repeatable read、Serializable,这四个级别可以逐个解决脏读、不可重复读、幻读这几类问题。√: 可能出现 ×: 不会出现脏读不可重复读幻读Read uncommitted

2015-12-31 17:04:48 350

转载 Hive优化以及参数配置

Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务

2015-04-22 11:43:37 3584

转载 MySQL命令大全

1、连接Mysql格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口,然后进入目录mysql\bin,再键入命令mysql -u root -p,回车后提示你输密码.注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入密码。如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进

2015-04-21 16:32:20 312

转载 Hbase 与Oracle比较

Hbase与Oracle比较(列式数据库与行式数据库)分类: Oracle 数据库 Hadoop 2014-10-26 21:17 433人阅读 评论(0)收藏 举报1 主要区别1.1、Hbase适合大量插入同时又有读的情况1.2、 Hbase的瓶颈是硬盘传输速度,Oracle的瓶颈是硬盘寻道时间。  Hbase本质上只有一种操作,就是插入,

2015-03-05 16:25:07 887

转载 SQL ON HADOOP

系统架构Runtime Framework v.s. MPP在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构。前者现有运行时框架,然后套上SQL层,后者则是从头打造一个一体化的查询引擎。有时我们能听到一种声音,说后者的架构优于前者,至少在性能上。那么是否果真如此?一般来说,对于SQL on

2015-01-29 16:54:23 809

转载 机器学习-协同过滤

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么

2015-01-29 16:27:43 337

转载 Hive数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2015-01-27 17:22:50 411

转载 hive优化

一、join优化  Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。  Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma

2015-01-21 11:48:09 308

原创 京东金融笔试

1.merge.mapfiles=true;2.merge.mapredfile=false;3.左右外连接的问题left outerright outerfull outerleft4.技术   管理  5.两张表join的时候大表在后小表在前  •hive 0.6 的时候默认认为写在select 后面的是大表,前面的是小表, 或者使用 /*+mapjoin(

2015-01-21 11:47:22 1968

转载 hive函数参考手册

1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。

2015-01-21 10:40:46 304

转载 hive 的运算

关系运算 (1)等值比较: =     语法:A = B     操作类型: 所有基本类型     描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE     举例:     hive> select 1 from dual where 1=1;     1 (2)不等值比较:      语法: A      操作类型: 所有基本类型

2015-01-21 10:08:58 432

原创 Kettle使用

1.新建转换 如图所示2.双击(运行SSH命令)3.Setting中进行如下设置命令为:hadoop fs -rm -r -skipTrash ${oss_hadoop_root_dir}/hive/cm_sector_info_tbl/upload_date=${oss_date_hdfs_rm_seven_days_ago}其中${}为变量名变量名的定义在参数获取七天前

2014-12-17 15:47:19 531

原创 hive权限问题

1.给某个用户授权grant select on database ffcs_cheny to user ffcs_cheny;2.ddlStatement : ( createDatabaseStatement | switchDatabaseStatement | dropDatabaseStatement | createTableStatement | dropTableSta

2014-12-17 15:43:42 1258

转载 学习网站

1.web jsphttp://blog.csdn.net/chinacsharper/article/details/39855287

2014-12-11 17:29:25 350

原创 数据仓库与BI面试常见题目

一、 数据库1、 Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作用?2、 Oracle数据库,有哪几类索引,分别有什么特点?3、 Union与Union All的区别?4、 对游标的理解?游标的分类?使用方法?5、 如何查找和删除表中的重复数据?给出方法或SQL。6、 不借助第三方工具,怎么查看SQL的执行计划?7、 创建索引有哪些需要注意的

2014-11-23 17:01:45 27836

转载 阿里巴巴java研发成功笔面试总结

没想到这么快就拿到了一个offer了,放佛做梦一般。谢师兄经常教育我们要学会分享,所以我决定写点什么给大家,也为自己攒点rp吧。【实习碰壁】上个学期末我就开始投简历了,那时候是为了找一份暑期实习做做。我投了4家公司,但是都被鄙视了,不是面试挂了,就是至少要求实习6个月,有的甚至连笔试机会都不给我。当时心里相当得失落。实验室的博士gg安慰我,说还是利用暑假好好看看书,好好巩固下基

2014-11-07 23:34:15 604

转载 hadoop 执行Wordcount详解

1、MapReduce理论简介 1.1 MapReduce编程模型  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;

2014-11-04 15:48:41 1389

转载 INFO ipc.Client: Retrying connect to server: dn79/10.10.10.79:18080

Connection RefusedYou get a ConnectionRefused Exception when there is a machine at the address specified, but there is no program listening on the specific TCP port the client is using -and th

2014-11-04 15:45:29 615

转载 三方协议

1、 三方协议是由毕业生、用人单位和学校三方之间就学生就业方向签订的一种协议,由三方共同签署后生效。对签约的三方都有约束力。毕业生与用人单位经过双向选 择达成就业意向后,必须签订学校统一发放的《高校毕业生、毕业研究生就业协议书》,毕业生与用人单位签订的其它就业协议书无效。2、就业协议在毕业生到单位报到、用人单位正式接收后自行终止。就业协议是明确毕业生、用人单位、学校三方在毕业生就业工作中的权利

2014-10-28 15:53:00 608

转载 毕业证、报到证、档案、户口、三方协议

千万不要以为毕业领了证书就万事大吉了。你还有很多事情要做。千万不要因为自己的疏忽,给以后带来不必要的麻烦。一生也许就毕业这么一回,大家还是认真点好。一、毕业证、学位证要复印两份收好了,那可是你四年青春换来的两个证书(最好是能扫描个电子版存在网络上备份)。先不说含金量如何,要是真弄丢了还真补办不了,只能给你开个证明,所以你还是不要大意。师范生还有一个教师资格证,全国通用的。二、报到证

2014-10-28 15:09:32 1058

原创 厦门巨龙笔试题目逻辑题

有100个硬币,其中一个较轻,

2014-10-28 10:08:22 1282 1

转载 Linux权限问题

第一位表示文件类型。d是目录文件,l是链接文件,-是普通文件,p是管道 第2-4位表示这个文件的属主拥有的权限,r是读,w是写,x是执行。第5-7位表示和这个文件属主所在同一个组的用户所具有的权限。第8-10位表示其他用户所具有的权限。 如: drwxr-xr-x user1 group1 filename 表示filename是个目录,user1拥有读写执行的权限,和user

2014-10-23 09:40:30 342

转载 Hadoop+Mysql+hive安装步骤

Hadoop+Hive+Mysql安装文档      软件版本redhat enterprise server5.564Hadoop1.0.0Hive0.8.1Mysql5Jdk1.6整体构架

2014-10-23 09:31:35 948

原创 错误(28,9): PLS-00201: 必须声明标识符 'PKG_IFACE_FOR_FLOW'

出错原因是没有权限给该用户进行授权grant execute on PKG_IFACE_FOR_FLOW to XMOMS_MAIN;

2014-10-17 16:02:32 1372

原创 Oracle 触发器调用包中的存储过程

create or replace TRIGGER GPM_NODEINSTANCE_TRG  AFTER INSERT OR UPDATE OF STATUS ON GPM_NODEINSTANCE_TBL  FOR EACH ROW DECLARE  P_STATUS NUMBER;  P_BUST_ID NUMBER;BEGIN  --新增  IF i

2014-10-17 15:54:03 943

原创 2015网易校园招聘一面二面

1.事务的隔离级别有哪几种?各隔离级别之间的

2014-10-16 10:26:30 1223

原创 Hadoop shell 命令

1.查看目录hadoop fs -ls  查看目录(/等效于hdfs://hadoop0:9000/)hadoop fs -lsr 递归查看目录2创建文件夹hadoop fs mkdir /sfx3.上传文件,本地到hdfshadoop fs -put /root/data.log /d1本地目录  hdfs目录(当hdfs的目录不存在,则默认为上传的文件名)如果没

2014-10-16 09:56:58 362

转载 Hive函数大全

目录一、关系运算: 41. 等值比较: = 42. 不等值比较:  43. 小于比较:  44. 小于等于比较:  45. 大于比较: > 56. 大于等于比较: >= 57. 空值判断: IS NULL 58. 非空判断: IS NOT NULL 69. LIKE比较: LIKE 610. JAVA的LIKE操作: RLIKE 611. REG

2014-10-16 09:54:54 446

原创 Hbase 创建,插入,查询

1.gang创建表create ‘user’,’info’表名为user,有一个列族为info2.查看表describe user3.插入数据put ‘user’,’1’,’info:age’,’20’put ‘user’,’1’,’info:name’,’zhangsan’4.浏览表scan ‘user’5.查看所有表List6.修改表查看状态

2014-10-16 09:54:25 912

转载 Hive函数大全(二)

字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:

2014-10-16 09:52:55 3649

转载 Hive自定义函数

第一部分:产生背景 产生背景 •为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括: •文件格式:Text File,Sequence File •内存中的数据格式: Java Integer/String, Hadoop  IntWritable/Text •用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdo

2014-10-16 09:45:28 562

原创 Hive编程指南

第一二章、基本操作1.set命令会打印出命名空间,hivevar、hiveconf、system、env所有的变量。还可以给变量附新的值。2.Hive中‘一次使用命令’将结果保存起来[ffcs@nn71 bin]$ hive -S -e "select * from emp" > /home/ffcs/hive-0.13.0-bin/examples/files/mydat

2014-10-16 09:43:38 933

原创 Hive的数据导入导出,插入,加载

简介用户接口,包括 CLI,JDBC/ODBC,WebUI元数据存储,通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算 l  用户接口主要有三个:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用

2014-10-16 09:40:42 1191

转载 删除表中重复记录

方法一、delete from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 )方法二、delete from 表名 a where 字段1,字段2 in  (select 字段1,字段2,count(*) from 表名 group by 字段1,字段

2014-10-16 09:25:09 325

原创 Oracle 存储过程覆盖

如果新写的存储过程覆盖了原来的存储过程,这个时候可以这样子查询之前

2014-10-16 09:24:59 816

原创 网易2015校园招聘笔试题

15道单选  5道多选  11道简答单选做的不错,多选错的比较多,简答做的不错一、单选数据库的基本查询,概念以及MYSQL的一些概念二、多选1.http://blog.csdn.net/ocean1010/article/details/6548771  事务的详解(笔试中多项选择 可以消除覆盖更新的隔离级别)2.http://blog.csdn.net/jojo52013

2014-10-15 16:05:15 937

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除