自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(552)
  • 资源 (25)
  • 收藏
  • 关注

转载 Hive安装过程遇到的问题(启动hive --service metastore &)

转载:http://blog.csdn.net/namelessml/article/details/52688955感谢博主!!异常:WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead

2017-08-15 15:19:54 29483

转载 Scala--高阶函数详细介绍

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://lqding.blog.51cto.com/9123978/1741885高阶函数主要有两种:一、将一个函数当做另外一个函数的参数(即函数参数)普通函数的定义语法如下:1def funName(pa

2017-08-11 15:31:32 2764

原创 关于UUID导致数据同步异常(org.apache.sqoop.mapreduce.AsyncSqlOutputFormat: Got exception in update thread: com)

1、异常概述及其分析过程在大数据同步过程中,为了数据分析同步并按天更新到关系型数据中(以MYSQL为例)且保证数据的唯一性,采用UUID所谓的永远不会重复的字符串作为数据表的ID。但在实际操作由于数据处理基数超大(数亿的数据量),加上UUID版本选择不恰当。致使UUID出现小概率事件重复,最终导致数据同步发生异常。异常如下图一图22、解决方案有图一所

2017-07-24 17:10:24 1829

转载 hive的查询注意事项以及优化总结

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon

2017-07-20 16:12:08 498

转载 spark1.6.0集群安装

转载:1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用Spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137

2017-07-05 20:26:40 853

原创 python爬虫源码

爬虫:https://git.oschina.net/xiyouMc/pornhubbot

2017-07-05 19:33:40 688

转载 hive的row_number()、rank()和dense_rank()的区别以及具体使用

转载:http://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1row_number()、rank()和dense_rank()这三个是Hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。首先创建一个文件test:A,1B,3C,2D,3E,4F,

2017-07-05 09:35:00 1496

转载 HBase详细概述(推荐)

声明: 本人只是把好的东西分享,没有别的目的,敬请原作谅解,在此要感谢作者转载:http://blog.csdn.net/u010270403/article/details/51648462本文首先简单介绍了Hbase,然后重点讲述了hbase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Sh

2017-07-03 10:47:00 1593 1

转载 hive 优化(推荐)

常用调优测试语句 : ①显示当前hive环境的参数值:set 参数名;如:  hive> set mapred.map.tasks;mapred.map.tasks;②设置hive当前环境的参数值,但仅对本次连接有效set 参数名 = 值;如:hive> set mapred.map.tasks;mapred.map.tasks=2;

2017-07-03 09:49:27 573

转载 Hive原理

转载:http://sishuok.com/forum/blogPost/list/6220.html第一部分:Hive原理 为什么要学习Hive的原理 •一条Hive HQL将转换为多少道MR作业 •怎么样加快Hive的执行速度 •编写Hive HQL的时候我们可以做什么 •Hive 怎么将HQL转换为MR作业 •Hive会采用什么样的优化方式

2017-07-02 21:55:15 699

转载 Scrapy安装配置,在Pycharm中运行和no module named win32API错误

转载:http://blog.csdn.net/little_sow/article/details/46408931在安装Scrapy之前,我已装好了python2.7,pip和esay_install一、安装Scrapy:首先在cmd转到放置pip.exe的目录,我的目录在C:\Python27\Scripts下面,然后在cmd输入指令: C:\Python27\Scr

2017-06-30 22:35:19 1778

原创 Linux文件误删除恢复操作

本文参考http://write.blog.csdn.net/postedit?ticket=ST-491405-OGjDDusZeyMgVQ7bHW7f-passport.csdn.net前言作为一个多用户、多任务的操作系统,Linux下的文件一旦被删除,是难以恢复的。尽管删除命令只是在文件节点中作删除标记,并不真正清除文件内容,但是其他用户和一些有写盘动作的进程会很快覆盖这些数据。不过......

2017-06-21 13:51:29 102153 9

转载 使用kylin踩过的坑

转载:http://www.th7.cn/db/mssql/201609/206145.shtml我的kylin.properties配置: ### SERVICE #### Kylin server mode, valid value [all, query, job]kyin.server.mode=all# Optional information for the own

2017-05-03 18:07:37 21973

转载 Apache Kylin优化之—Cube的高级设置

转载:http://bigdata.51cto.com/art/201705/538648.htm根据本系列的原理介绍,在Kylin的高级设置中,用户可以根据查询需求对Cube构建预计算的结果进行优化(剪枝),从而减少占用的存储空间。 而优化得当的Cube可以在占用尽量少的存储空间的同时提供极强的查询性能。随着维度数目的增加,Cuboid 的数量

2017-05-03 18:06:28 2956

转载 Cube和Kylin创建Cube的过程

转载:http://www.aboutyun.com/thread-20757-1-1.html简介  Kylin作为一个OLAP引擎,需要Cube模型支撑,在我们的工作过程中,在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中,他们总是会对Cube的模型有一些疑惑,作为经常接触这个概念的我来说这是再明了不过的了,而他们还是会在我讲解多次之后表示还在云里雾里

2017-05-03 18:05:03 2320

转载 Apache Kylin的快速数据立方体算法——概述

Apache Kylin(麒麟)是由eBay贡献给开源社区的大数据分析引擎,支持在超大数据集上进行秒级别的SQL及OLAP查询,目前是Apache基金会的孵化项目[1]。本文是一系列介绍快速数据立方体计算(Fast Cubing)的第一篇,将从概念上介绍新算法与旧算法的区别以及分析它的优劣。该算法目前正在内部进行测试和改进,将在Apache Kylin 后续版本中发布。源代码已经公开在Kylin的

2017-05-03 18:03:44 1893

转载 sql之left join、right join、inner join的区别

转载:http://www.cnblogs.com/pcjim/articles/799302.htmlleft join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: --------------

2017-04-26 10:59:35 670

原创 hive 三种去重方式

在hive数据清洗这里总结三种常用的去重方式1.distinct2.group by3.row_number()实例:SELECT tel, link_name, certificate_no, certificate_type, modify_time  FROM order_info WHERE deleted = 'F'   AND pay_status =

2017-04-24 17:08:35 33805 2

转载 sqoop-导入数据出现java.sql.SQLException: Streaming result set com.mysql.jdbc.

在运行sqoop的时候出现了mysql的bug导致数据不能导入具体的异常如下所示:16/01/24 04:00:06 ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@44f16719

2017-04-20 13:40:08 2187

转载 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

Total MapReduce jobs = 114/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize14/08/24 20:29:11 WARN con

2017-04-13 13:56:40 5248

转载 HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

转载:http://www.aboutyun.com/thread-20461-1-1.html问题导读:1.什么是Hive?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎样实现SQL的词法和语法解析?Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hi

2017-04-10 13:31:47 709

转载 深入理解HBase的memestore、storeFile(HFile)

原文出处:http://shitouer.cn/2013/02/configuring-hbase-memstore-what-you-should-know MemStore是HBase非常重要的组成部分,深入理解MemStore的运行机制、工作原理、相关配置,对HBase集群管理以及性能调优有非常重要的帮助。HBase Memstore首先通过简单介绍HBase的读写过程来理解

2017-04-09 17:07:41 11721

转载 spark性能优化:数据倾斜调优

调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个tas

2017-04-01 17:34:09 503

转载 hive 数据倾斜分析-=推荐

http://www.tuicool.com/articles/qUBJbuVhttp://blog.itpub.net/29754888/viewspace-1262946/调优:https://m.aliyun.com/yunqi/articles/59635

2017-04-01 16:01:28 660

转载 HDFS负载均衡问题

转载:http://www.thebigdata.cn/Hadoop/28910.htmlhadoop HDFS 负载均衡问题,在实际的数据开发中,由于受到cup、磁盘空间、内存容量甚至是网络开销限制。会出现集群的负载均衡问题负载均衡包括两方面:1.集群个主机之间的数据负载均衡2.某台主机内部的数据负载均衡问题Hadoop 分布式文件系统(Hadoop

2017-03-31 17:00:37 4544

原创 hive会产生大量的tmp文件

在实际的hive数据开发中,目录/tmp目录下产生大量文件数据,占用大量的磁盘空间。下面是cloudera官网给出解释:http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-does-tmp-hive-admin-take-up-so-much-space/m-p/38863#

2017-03-31 15:54:14 6161

转载 hive group by distinct区别以及性能比较

Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论

2017-03-30 10:57:16 29890 18

转载 nvl,coalesce,decode,if用法及其区别

SQL中 nvl()、coalesce()、decode()这三个函数,如果只是判断非空的话,哪一个效率相比较高?nvl(bonus,0) 意思是 如果 bonus is null , 那么返回 0, 否则返回 bonuscoalesce(bonus,0,1) 意思是 返回 参数列表中, 第一个非 空的数据。也就是相当于, 如果 bonus is null , 那么返回 0, 否则返回

2017-03-30 08:42:32 3830

转载 SQL的各种连接(cross join、inner join、full join)的用法理解

SQL中的连接可以分为内连接,外连接,以及交叉连接 。1. 交叉连接CROSS JOIN如果不带WHERE条件子句,它将会返回被连接的两个表的笛卡尔积,返回结果的行数等于两个表行数的乘积;举例,下列A、B、C 执行结果相同,但是效率不一样:A:SELECT * FROM table1 CROSS JOIN table2B:SELECT * FROM tabl

2017-03-30 08:40:32 49462 5

原创 Hive实现自增列的两种方法

多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。  假设有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到t

2017-03-29 17:55:57 17906

原创 牛人的技术博客:http://shiyanjun.cn/archives/1497.html

http://shiyanjun.cn/archives/1497.html

2017-03-22 14:18:29 1044

原创 PLSQL显示乱码-无法进行中文条件查询解决

PL/SQL Developer 使用中文条件查询时无数据,这是由于字符集的不一致导致的。1、执行以下sql命令:select userenv('language') from dual;显示:AMERICAN_AMERICA.AL32UTF82、 设置本地环境变量。(PLSQL优先从环境变量中获取属性)    右击 我的电脑 -> 属性 -> 告警系统

2017-03-17 15:47:50 4240

转载 Hive优化—-控制hive任务的reduce数

转载:http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)h

2017-03-14 09:30:10 4157

原创 查看集群文件使用状态hdfs dfs -du -h /hbase --max-depth=1

[root@]# hdfs dfs -du -h /hbase --max-depth=10        0       /hbase/.tmp755.6 M  5.2 G   /hbase/WALs22.4 G   67.3 G  /hbase/archive0        0       /hbase/corrupt32.6 G   99.2 G  /hbase/dat

2017-03-09 18:20:10 4534

转载 hadoop 数据倾斜详解

数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://w

2017-02-28 18:32:09 1399

转载 利用SQOOP将数据从数据库导入到HDFS

#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号    CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2    #使用的用户名    ORACLENAME=kkaa    #使用的密码    ORACLEPASSWORD=kkaa123    #需要从Oracle中导入的表名    or

2017-02-24 11:31:06 1669

转载 MySQL 中事务详解

http://blog.csdn.NET/qh_java/article/details/140457651、事务的概念2、在MySQL中哪些存储引擎(表类型)支持事务哪些不支持3、事务的四个属性4、mysql事务的创建与存在周期5、mysql行为6、事务的孤立性和性能7、mysql的伪事务一、事务的概念 

2017-02-09 15:51:40 680

转载 Hive sql语法:inner join on, left join on, right join on详细使用方法

inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 INNER JOIN 语法: INNER JOIN 连接两个数据表的用法:SELECT * FROM 表1 INNER JOIN 表2

2017-02-09 15:49:58 17349

转载 hive时间操作函数

hive时间操作函数标签: hive函数linux2016-12-21 16:07 49人阅读 评论(0) 收藏 举报 分类:hive日期函数UNIX时间戳转日期函数: from_unixtime语法:   from_unixtime(bigint unixtime[, string format])返回值: string说明

2017-01-16 08:38:35 3800

转载 sqoop export 数据覆盖更新

sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件,并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export

2017-01-14 16:13:34 20032 4

PPT资源库----模板

PPT资源库----模板

2021-07-14

wireshark-v3.4.2.zip

运行换进:win64 抓包:TCP报文 主要用到的过滤指令: tcp.port == 80 || udp.port == 80 ip.addr == 192.168.1.57 and not tcp.port in {80 25}

2021-04-20

cmake-3.11.4-win64-x64.msi

windows7 版的cmake安装包

2021-04-01

自定义的gsoap头文件station.h

Gsoap的头文件示例

2021-03-27

gsoap_2.8.74.zip

C++ WebService开发辅助工具

2021-03-27

rapidxml.zip

适用于windows环境C++读取xml文件,rapidxml依赖库

2021-03-24

shell脚本案例-俄罗斯方块

该脚本需要在Linux-centos系统中运行,需要安装格式转换工具 dos2unix; 改脚本对于shell初学者来说是不错案例选择,仅用619行脚本代码,写出了有趣的小游戏; 环境:Centos7.x 1.dos2unix安装 yum -y install dos2unix 2.格式转换: dos2unix square.sh 3.执行脚本 sh square.sh 备注:该脚本本人已经验证过。如有疑问请关注微信公众号:“IT菜籽U”搜索"(八)Linux系统-shell基础--脚本执行方式",有详细的介绍;

2021-03-01

gsoap2.8.11&2.8.1双版本.txt

linux:centos7.x 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤:https://blog.csdn.net/xiaoshunzi111/article/details/113444209

2021-02-05

gsoap2.8.11离线安装包

适用于centos7.X 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装:https://blog.csdn.net/xiaoshunzi111/article/details/113444209 ./configure --prefix=/usr/local/gSOAP make make install 。。。

2021-02-05

yum离线安装包(真实有效)

以用于Centos7.X.; 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤: 1.解压缩:unzip yum离线安装包.zip 2. rpm -ivh yum-plugin-fastestmirror-1.1.31-53.el7.noarch.rpm --nodeps 。。。

2021-02-05

PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz

本资源为编译openssl库时所需要的辅助编译工具,ActivePerl5.24.3_X64,Nasm2.14rc15_X64,本人已经过实际项目验证

2020-11-03

NVIDIA-Linux-x86_64-418.88.run

NVIDIA-Linux-x86_64显卡驱动,适用于RTX2060显卡的设备。只需要将改软件copy到Ubuntu16.04LTS系统下./NVIDIA-Linux-x86_64-418.88.run然后一步步操作即可;安装完毕后可通过nvidia-smi 查看是否安装成功;

2020-09-02

Ubuntu16.04 openssh安装包

Ubuntu16.04 1.安装解压缩 sudo dpkg -i *.deb 2.执行 sudo ps -e |grep ssh 有 sshd 说明ssh服务已经启动。 如果没有 执行 sudo systemctl ssh start 默认端口22若需要修改,执行 sudo gedit /etc/ssh/sshd_config

2020-07-16

全栈性能java网络爬虫从入门到精通实战.pdf

全面总结概括爬虫的基本原理以及应用,特别是对java有一定基础的人更容易上手。由于它在业界得到广泛的认可的是爬虫爱好者必备的武功秘籍。

2020-05-26

Ubuntu操作系统ssh安装包

安装包中包含里ssh所有依赖包,包括openssh-server_7.2p2-4ubuntu2.8_amd64.deb、 openssh-sftp-server_7.2p2-4ubuntu2.8_amd64.deb 和openssh-client_7.2p2-4ubuntu2.8_amd64.deb等在内,使用于Ubuntu16.04LTS环境;一键安装:dgbk -i *.deb

2020-05-25

VS2013-64位

VS2013是C++开发者最常用的编译工具,由于他能够与win系列系统无缝兼容,被C++开发者广泛认可;VS2013工具安全可靠稳定

2020-05-10

SoapUI-x32-5.4.0.exe

SoapUI-x32-5.4.0是32二位的接口调试工具,可用于WebService协议接口对接调试,本人已经验证过,安全,可用。

2020-04-13

qt-opensource-linux-x64-5.7.1.run

本资源适用于Linux之Ubuntu16+ LTS系统环境,Linux环境下是C++的开发集成工具。qt-opensource-linux-x64-5.7.1.run。郑重声明:本资源已经经过实际项目验证。

2020-03-26

qt-opensource-linux-x64-5.5.1.run

本资源适用于Linux之Ubuntu16+ LTS系统环境,Linux环境下是C++的开发集成工具。qt-opensource-linux-x64-5.5.1.run。郑重声明:本资源已经经过实际项目验证。

2020-03-26

curl-7.49.0.tar.gz

本资源适用于Linux之Ubuntu16+ LTS,curl离线安装包中库文件,可用于基于http数据传输协议C++语言开发应用。亲测,安全可靠。郑重声明:凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

libevent-2.0.21-stable.tar.gz

本安装包基本Linux之Ubuntu16 LTS环境压缩包-libevent-2.0.21-stable.tar.gz,适用于C++ 开发语言值http协议。其中libevent库文件集成了evhttp高并发多延迟框架的库文件。经过实际的项目验证,安全可靠。 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

Linux libevent2.1安装包

本安装包基本Linux之Ubuntu16 LTS环境压缩包-libevent-2.1.11-stable.tar.gz,适用于C++ 开发语言值http协议。其中libevent库文件集成了evhttp高并发多延迟框架的库文件。经过实际的项目验证,安全可靠。 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

redis505.rar

redis5.05.tar.gz安装包,支持Linux CentOS7安装,安装简单实用,并支持C++程序调用,亲测过可用! 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-04

支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt

支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出。 凡通过本人上传的资源,全部是经过实际项验证过的。

2019-11-05

GDI开发包,C++绘图工具包

包括:gdiplus.h,gdiplus.lib,动态链接库的.dll文件:gdiplus.dll

2018-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除