IT菜籽U-CSDN博客

转载 Hive安装过程遇到的问题（启动hive --service metastore &）

转载：http://blog.csdn.net/namelessml/article/details/52688955感谢博主！！异常：WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect. Use hive.hmshandler.retry.* instead

2017-08-15 15:19:54 29483

转载 Scala--高阶函数详细介绍

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://lqding.blog.51cto.com/9123978/1741885高阶函数主要有两种：一、将一个函数当做另外一个函数的参数（即函数参数)普通函数的定义语法如下：1def funName(pa

2017-08-11 15:31:32 2764

原创关于UUID导致数据同步异常（org.apache.sqoop.mapreduce.AsyncSqlOutputFormat: Got exception in update thread: com）

1、异常概述及其分析过程在大数据同步过程中，为了数据分析同步并按天更新到关系型数据中（以MYSQL为例）且保证数据的唯一性，采用UUID所谓的永远不会重复的字符串作为数据表的ID。但在实际操作由于数据处理基数超大（数亿的数据量），加上UUID版本选择不恰当。致使UUID出现小概率事件重复，最终导致数据同步发生异常。异常如下图一图22、解决方案有图一所

2017-07-24 17:10:24 1829

转载 hive的查询注意事项以及优化总结

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon

2017-07-20 16:12:08 498

转载 spark1.6.0集群安装

转载：1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明，旨在帮助相关人员按照本说明能够快速搭建并使用Spark集群。 2. 安装环境本安装说明的示例环境部署如下：IP外网IPhostname备注10.47.110.38120.27.153.137

2017-07-05 20:26:40 853

原创 python爬虫源码

爬虫：https://git.oschina.net/xiyouMc/pornhubbot

2017-07-05 19:33:40 688

转载 hive的row_number()、rank()和dense_rank()的区别以及具体使用

转载：http://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1row_number()、rank()和dense_rank()这三个是Hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。首先创建一个文件test：A,1B,3C,2D,3E,4F,

2017-07-05 09:35:00 1496

转载 HBase详细概述（推荐）

声明：本人只是把好的东西分享，没有别的目的，敬请原作谅解，在此要感谢作者转载：http://blog.csdn.net/u010270403/article/details/51648462本文首先简单介绍了Hbase,然后重点讲述了hbase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Sh

2017-07-03 10:47:00 1593 1

转载 hive 优化（推荐）

常用调优测试语句： ①显示当前hive环境的参数值：set 参数名;如： hive> set mapred.map.tasks;mapred.map.tasks;②设置hive当前环境的参数值，但仅对本次连接有效set 参数名 = 值;如：hive> set mapred.map.tasks;mapred.map.tasks=2;

2017-07-03 09:49:27 573

转载 Hive原理

转载：http://sishuok.com/forum/blogPost/list/6220.html第一部分：Hive原理为什么要学习Hive的原理 •一条Hive HQL将转换为多少道MR作业 •怎么样加快Hive的执行速度 •编写Hive HQL的时候我们可以做什么 •Hive 怎么将HQL转换为MR作业 •Hive会采用什么样的优化方式

2017-07-02 21:55:15 699

转载 Scrapy安装配置，在Pycharm中运行和no module named win32API错误

转载：http://blog.csdn.net/little_sow/article/details/46408931在安装Scrapy之前，我已装好了python2.7，pip和esay_install一、安装Scrapy：首先在cmd转到放置pip.exe的目录，我的目录在C:\Python27\Scripts下面，然后在cmd输入指令： C:\Python27\Scr

2017-06-30 22:35:19 1778

本文参考http://write.blog.csdn.net/postedit?ticket=ST-491405-OGjDDusZeyMgVQ7bHW7f-passport.csdn.net前言作为一个多用户、多任务的操作系统，Linux下的文件一旦被删除，是难以恢复的。尽管删除命令只是在文件节点中作删除标记，并不真正清除文件内容，但是其他用户和一些有写盘动作的进程会很快覆盖这些数据。不过......

2017-06-21 13:51:29 102153 9

转载使用kylin踩过的坑

转载：http://www.th7.cn/db/mssql/201609/206145.shtml我的kylin.properties配置： ### SERVICE #### Kylin server mode, valid value [all, query, job]kyin.server.mode=all# Optional information for the own

2017-05-03 18:07:37 21973

转载 Apache Kylin优化之—Cube的高级设置

转载：http://bigdata.51cto.com/art/201705/538648.htm根据本系列的原理介绍，在Kylin的高级设置中，用户可以根据查询需求对Cube构建预计算的结果进行优化(剪枝)，从而减少占用的存储空间。而优化得当的Cube可以在占用尽量少的存储空间的同时提供极强的查询性能。随着维度数目的增加，Cuboid 的数量

2017-05-03 18:06:28 2956

转载 Cube和Kylin创建Cube的过程

转载：http://www.aboutyun.com/thread-20757-1-1.html简介　　Kylin作为一个OLAP引擎，需要Cube模型支撑，在我们的工作过程中，在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中，他们总是会对Cube的模型有一些疑惑，作为经常接触这个概念的我来说这是再明了不过的了，而他们还是会在我讲解多次之后表示还在云里雾里

2017-05-03 18:05:03 2320

转载 Apache Kylin的快速数据立方体算法——概述

Apache Kylin（麒麟）是由eBay贡献给开源社区的大数据分析引擎，支持在超大数据集上进行秒级别的SQL及OLAP查询，目前是Apache基金会的孵化项目[1]。本文是一系列介绍快速数据立方体计算（Fast Cubing）的第一篇，将从概念上介绍新算法与旧算法的区别以及分析它的优劣。该算法目前正在内部进行测试和改进，将在Apache Kylin 后续版本中发布。源代码已经公开在Kylin的

2017-05-03 18:03:44 1893

转载 sql之left join、right join、inner join的区别

转载：http://www.cnblogs.com/pcjim/articles/799302.htmlleft join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下： --------------

2017-04-26 10:59:35 670

原创 hive 三种去重方式

在hive数据清洗这里总结三种常用的去重方式1.distinct2.group by3.row_number()实例：SELECT tel, link_name, certificate_no, certificate_type, modify_time FROM order_info WHERE deleted = 'F' AND pay_status =

2017-04-24 17:08:35 33805 2

转载 sqoop-导入数据出现java.sql.SQLException: Streaming result set com.mysql.jdbc.

在运行sqoop的时候出现了mysql的bug导致数据不能导入具体的异常如下所示：16/01/24 04:00:06 ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@44f16719

2017-04-20 13:40:08 2187

转载 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

Total MapReduce jobs = 114/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize14/08/24 20:29:11 WARN con

2017-04-13 13:56:40 5248

转载 HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

转载：http://www.aboutyun.com/thread-20461-1-1.html问题导读：1.什么是Hive?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎样实现SQL的词法和语法解析?Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hi

2017-04-10 13:31:47 709

转载深入理解HBase的memestore、storeFile(HFile)

原文出处：http://shitouer.cn/2013/02/configuring-hbase-memstore-what-you-should-know MemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作原理、相关配置，对HBase集群管理以及性能调优有非常重要的帮助。HBase Memstore首先通过简单介绍HBase的读写过程来理解

2017-04-09 17:07:41 11721

转载 spark性能优化：数据倾斜调优

调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个tas

2017-04-01 17:34:09 503

转载 hive 数据倾斜分析-=推荐

http://www.tuicool.com/articles/qUBJbuVhttp://blog.itpub.net/29754888/viewspace-1262946/调优：https://m.aliyun.com/yunqi/articles/59635

2017-04-01 16:01:28 660

转载 HDFS负载均衡问题

转载：http://www.thebigdata.cn/Hadoop/28910.htmlhadoop HDFS 负载均衡问题，在实际的数据开发中，由于受到cup、磁盘空间、内存容量甚至是网络开销限制。会出现集群的负载均衡问题负载均衡包括两方面：1.集群个主机之间的数据负载均衡2.某台主机内部的数据负载均衡问题Hadoop 分布式文件系统（Hadoop

2017-03-31 17:00:37 4544

原创 hive会产生大量的tmp文件

在实际的hive数据开发中，目录/tmp目录下产生大量文件数据，占用大量的磁盘空间。下面是cloudera官网给出解释：http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-does-tmp-hive-admin-take-up-so-much-space/m-p/38863#

2017-03-31 15:54:14 6161

转载 hive group by distinct区别以及性能比较

Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order_no)这种语句跑的特别慢，和直接运行count(order_no)的时间差了很多，于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct，例子：实际论

2017-03-30 10:57:16 29890 18

转载 nvl,coalesce,decode,if用法及其区别

SQL中 nvl（）、coalesce（）、decode（）这三个函数，如果只是判断非空的话，哪一个效率相比较高？nvl(bonus,0) 意思是如果 bonus is null ，那么返回 0，否则返回 bonuscoalesce(bonus,0,1) 意思是返回参数列表中，第一个非空的数据。也就是相当于，如果 bonus is null ，那么返回 0，否则返回

2017-03-30 08:42:32 3830

转载 SQL的各种连接（cross join、inner join、full join)的用法理解

SQL中的连接可以分为内连接，外连接，以及交叉连接。1. 交叉连接CROSS JOIN如果不带WHERE条件子句，它将会返回被连接的两个表的笛卡尔积，返回结果的行数等于两个表行数的乘积；举例,下列A、B、C 执行结果相同，但是效率不一样：A:SELECT * FROM table1 CROSS JOIN table2B:SELECT * FROM tabl

2017-03-30 08:40:32 49462 5

原创 Hive实现自增列的两种方法

多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数（UDF）。假设有维度表tbl_dim和过渡表tbl_stg，现在要将tbl_stg的数据装载到t

2017-03-29 17:55:57 17906

原创牛人的技术博客：http://shiyanjun.cn/archives/1497.html

http://shiyanjun.cn/archives/1497.html

2017-03-22 14:18:29 1044

原创 PLSQL显示乱码-无法进行中文条件查询解决

PL/SQL Developer 使用中文条件查询时无数据，这是由于字符集的不一致导致的。1、执行以下sql命令：select userenv('language') from dual;显示：AMERICAN_AMERICA.AL32UTF82、设置本地环境变量。（PLSQL优先从环境变量中获取属性）右击我的电脑 -> 属性 -> 告警系统

2017-03-17 15:47:50 4240

转载 Hive优化—-控制hive任务的reduce数

转载：http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数：reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定：hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）h

2017-03-14 09:30:10 4157

原创查看集群文件使用状态hdfs dfs -du -h /hbase --max-depth=1

[root@]# hdfs dfs -du -h /hbase --max-depth=10 0 /hbase/.tmp755.6 M 5.2 G /hbase/WALs22.4 G 67.3 G /hbase/archive0 0 /hbase/corrupt32.6 G 99.2 G /hbase/dat

2017-03-09 18:20:10 4534

转载 hadoop 数据倾斜详解

数据倾斜是指，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。阿里的这篇比较实用，通俗易懂:数据倾斜总结 http://w

2017-02-28 18:32:09 1399

转载利用SQOOP将数据从数据库导入到HDFS

#Oracle的连接字符串，其中包含了Oracle的地址，SID,和端口号 CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2 #使用的用户名 ORACLENAME=kkaa #使用的密码 ORACLEPASSWORD=kkaa123 #需要从Oracle中导入的表名 or

2017-02-24 11:31:06 1669

转载 MySQL 中事务详解

http://blog.csdn.NET/qh_java/article/details/140457651、事务的概念2、在MySQL中哪些存储引擎（表类型）支持事务哪些不支持3、事务的四个属性4、mysql事务的创建与存在周期5、mysql行为6、事务的孤立性和性能7、mysql的伪事务一、事务的概念

2017-02-09 15:51:40 680

转载 Hive sql语法：inner join on, left join on, right join on详细使用方法

inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 INNER JOIN 语法： INNER JOIN 连接两个数据表的用法：SELECT * FROM 表1 INNER JOIN 表2

2017-02-09 15:49:58 17349

转载 hive时间操作函数

hive时间操作函数标签： hive函数linux2016-12-21 16:07 49人阅读评论(0) 收藏举报分类：hive日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明

2017-01-16 08:38:35 3800

转载 sqoop export 数据覆盖更新

sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件，并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export

2017-01-14 16:13:34 20032 4

PPT资源库----模板

2021-07-14

wireshark-v3.4.2.zip

运行换进：win64 抓包：TCP报文主要用到的过滤指令： tcp.port == 80 || udp.port == 80 ip.addr == 192.168.1.57 and not tcp.port in {80 25}

2021-04-20

cmake-3.11.4-win64-x64.msi

windows7 版的cmake安装包

2021-04-01

自定义的gsoap头文件station.h

Gsoap的头文件示例

2021-03-27

gsoap_2.8.74.zip

C++ WebService开发辅助工具

2021-03-27

rapidxml.zip

适用于windows环境C++读取xml文件，rapidxml依赖库

2021-03-24

shell脚本案例-俄罗斯方块

该脚本需要在Linux-centos系统中运行，需要安装格式转换工具 dos2unix；改脚本对于shell初学者来说是不错案例选择，仅用619行脚本代码，写出了有趣的小游戏；环境：Centos7.x 1.dos2unix安装 yum -y install dos2unix 2.格式转换： dos2unix square.sh 3.执行脚本 sh square.sh 备注：该脚本本人已经验证过。如有疑问请关注微信公众号：“IT菜籽U”搜索"（八）Linux系统-shell基础--脚本执行方式"，有详细的介绍;

2021-03-01

gsoap2.8.11&2.8.1双版本.txt

linux:centos7.x 内核版本：Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤：https://blog.csdn.net/xiaoshunzi111/article/details/113444209

2021-02-05

gsoap2.8.11离线安装包

适用于centos7.X 内核版本：Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装：https://blog.csdn.net/xiaoshunzi111/article/details/113444209 ./configure --prefix=/usr/local/gSOAP make make install 。。。

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

PPT资源库----模板

wireshark-v3.4.2.zip

cmake-3.11.4-win64-x64.msi

自定义的gsoap头文件station.h

gsoap_2.8.74.zip

rapidxml.zip

shell脚本案例-俄罗斯方块

gsoap2.8.11&2.8.1双版本.txt

gsoap2.8.11离线安装包

yum离线安装包(真实有效)

PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz

NVIDIA-Linux-x86_64-418.88.run

Ubuntu16.04 openssh安装包

全栈性能java网络爬虫从入门到精通实战.pdf

Ubuntu操作系统ssh安装包

VS2013-64位

SoapUI-x32-5.4.0.exe

qt-opensource-linux-x64-5.7.1.run

qt-opensource-linux-x64-5.5.1.run

curl-7.49.0.tar.gz

libevent-2.0.21-stable.tar.gz

Linux libevent2.1安装包

redis505.rar

支持VMWare Esxi6.7虚拟机操作系统，VMware-ovftool-4.3.0.x86_64。用于企业大容量（20G亲测）OVF导出.txt

GDI开发包，C++绘图工具包

空空如也