- 博客(78)
- 资源 (1)
- 收藏
- 关注
原创 Mysql tinyint和Sqlserver tinyint的区别,zerofill的使用
数据库表设计的时候一定要注意:Mysql里面,tinyint默认是有符号的,取值范围是-128到127,unsigned属性就是将数字类型无符号化 unsigned tinyint才是0-255;SQL Server支持bignt, int, smallint, tinyint这四种int,前三种都是有符号的,而tinyint却是无符号的,取值范围是0-255;所以,如果在这两个数据库...
2016-11-05 22:05:45 1849
原创 SparkStreaming pull data from Flume
Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html本例子是做一个Spark Streaming 从flume中拉取数据的实验。[b]1.面配置flume[/b]1.首先下载必须的jar:在上面的连接中有。并将其拷贝...
2016-06-19 17:29:40 248
原创 Flume push数据到SparkStreaming
上节[url]http://kevin12.iteye.com/blog/2305946[/url]将flume的环境搭建好,并测试了flume的故障转移功能,这节编码实现Flume推送数据到Spark Streaming中。下面的例子我只在master1上配置flume,worker1,worker2不进行配置了。[b]1.配置[/b]master1上修改配置文件root@maste...
2016-06-19 15:16:07 250
原创 Flume的安装和测试故障转移
[b]1.实现功能 [/b]配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。 [b]2.集群规划(3台机器都需要安装)[/b] [img]http://dl2.iteye.com/upload/attachment/0118/1297/28d83bb4-6f97-36c7-8f54-8b948969bfe4.jpg[/img][img]http://dl2.itey...
2016-06-19 14:56:53 481
原创 Flume的安装和测试故障转移
[b]1.实现功能[/b]配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。[b]2.集群规划(3台机器都需要安装)[/b][img]http://dl2.iteye.com/upload/attachment/0118/1266/d91f8424-2cce-3134-91cc-15fbe44be0f2.jpg[/img][b]3.软件准备[/b]下载软件包:ht...
2016-06-19 12:48:07 407
原创 Spark Streaming 统计单词的例子
测试Spark Streaming 统计单词的例子[b]1.准备[/b]事先在hdfs上创建两个目录:保存上传数据的目录:hdfs://master1:9000/library/SparkStreaming/datacheckpoint的目录:hdfs://master1:9000/library/SparkStreaming/CheckPoint_data[b]2.源...
2016-06-19 12:29:38 424
原创 Spark SQL窗口函数
窗口函数又叫着窗口分析函数,Spark 1.4版本SparkSQL支持窗口分析函数,主要用于分组函数;理解窗口函数,可以参考blog去了理解:[url]http://www.cnblogs.com/CareySon/p/3411176.html[/url][b]数据准备(用空格隔开)[/b][code="java"]Spark 100Hadoop 65Spark 99Had...
2016-04-22 07:18:37 383
原创 Spark SQL内置函数应用
[b]简单说明[/b] 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果返回一个Column对象,而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,...
2016-04-22 07:00:36 424
原创 Spark SQL操作Hive数据库
本次例子通过scala编程实现Spark SQL操作Hive数据库!Hadoop集群搭建:[url]http://kevin12.iteye.com/blog/2273532[/url]Spark集群搭建:[url]http://kevin12.iteye.com/blog/2273532[/url][b]数据准备[/b]在/usr/local/sparkApps/SparkS...
2016-04-13 22:37:39 1621
原创 Spark SQL on hive配置和实战
spark sql 官网:[url]http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext[/url]首先要配置好hive,保存元数据到mysql中,参考:[url]http://kevin12.iteye.com/blog/2280777[/url]然后配置S...
2016-03-26 18:40:52 469
原创 Hive分析搜索引擎的数据(搜狗实验室数据)
搜狗实验室:[url]http://www.sogou.com/labs/resources.html[/url]用户查询日志:[url]http://www.sogou.com/labs/dl/q.html[/url][img]http://dl2.iteye.com/upload/attachment/0115/7437/85656402-5732-3811-8bb3-aadc2e...
2016-03-13 12:48:59 961
原创 Hive使用默认数据库derby报错及解决方法
在使用derby数据库时,遇到了很多错误,报错信息和解决方法如下,记录下来:[b]一,配置问题[/b][code="java"]Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.prop...
2016-03-05 21:19:16 1351
原创 Hive1.2.1安装和使用(基于Hadoop2.6.0)
安装hive,这里使用mysql作为hive的metastore;[b]Ubuntu 15.10虚拟机中安装mysql方法请看:[/b][url]http://kevin12.iteye.com/admin/blogs/2280771[/url][b]Hadoop2.6.0集群安装:[/b][url]http://kevin12.iteye.com/blog/2273532[/url]...
2016-03-05 20:22:05 431
原创 ubuntu 15.10中msyql开启远程端口服务
[b]开启远程访问端口[/b]首先查看端口是否打开[code="java"] root@master1:netstat -an|grep 3306[/code]显示结果:[code="java"]tcp 0 0 127.0.0.1:3306 0.0.0.0:* LISTEN[/code]上面说明mysql的3306端口只是监听本地的连接,并没有开启远程端口服务,阻碍外部IP对该数据库的...
2016-03-05 14:18:54 151
原创 ubuntu 15.10安装mysql数据库 开启远程端口
最近基于hadoop-2.6.0安装apache-hive-1.2.1-bin,需要安装mysql数据库(Hive默认使用的derby)。简单说明:Hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore,一般存放在derby、mysql中。derby不能被多个客户端共同...
2016-03-05 14:11:20 188
原创 eclipse开发hadoop环境搭建
[b]Hadoop2.6.0集群搭建完毕后,下面介绍一下eclipse是如何开发hadoop程序(即MapReduce程序)的。[/b]1.jdk安装hadoop集群的搭建,不再详述,参考[url]http://kevin12.iteye.com/blog/2273556[/url];下面运行下hadoop自带的wordcount例子:2.先将hadoop-2.6.0目录下面的READ...
2016-02-13 14:54:26 275
原创 Spark RDD弹性表现和来源
hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;基于数据集的操作不适应的场景:1,不适合于大量的迭代2,交互式查询重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果;spark RDD是基于工作集的工作流和工作集的共同特点:位置感知,自动容错,负载均衡等...
2016-02-09 20:12:56 519
原创 Spark内核架构
1.在将spark内核架构前,先了解一下Hadoop的MR,Hadoop的MR分为Map和Reduce阶段,在Map阶段产生的中间结果要写回到磁盘,它和Reduce之间还有Shuffle操作,这个操作需要从网络节点进行数据拷贝,大量时间耗费在网络传输上,网络传输导致Hadoop的MR慢的原因之一,所以在很多情况下只适合离线计算。2.Spark的RDD(Resilient Distributed...
2016-02-07 12:24:56 114
原创 spark集群HA搭建
spark集群的HA图:[img]http://dl2.iteye.com/upload/attachment/0114/9089/eb35dece-fea3-3f5b-b200-07fa6406c463.png[/img]搭建spark的HA需要安装zookeeper集群,下面简单说明一下zookeeper集群的安装方法;我是将master1,worker1,worker2上...
2016-01-31 08:50:27 375
原创 Spark集群中WordCount运行原理
以数据流动的视角解释一下wordcount运行的原理[code="java"]package com.imf.spark.wordcountimport org.apache.spark.{SparkContext, SparkConf}/** * Created by vivi on 2016/1/27. */object WordCount {d...
2016-01-31 07:05:23 279
原创 eclipse开发spark程序配置在集群上运行
这篇bolg讲一下,IDE开发的spark程序如何提交到集群上运行。首先保证你的集群是运行成功的,集群搭建可以参考[url]http://kevin12.iteye.com/blog/2273556[/url]开发集群测试的spark wordcount程序;[b]1.hdfs数据准备.[/b]先将README.md文件上传到hdfs上的/library/wordcount/i...
2016-01-27 08:08:36 752
原创 eclipse开发spark程序配置本地运行
今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序,并在本地运行测试。1.下载最新版的scala for eclipse版本,选择windows 64位,下载网址:[url]http://scala-ide.org/download/sdk.html[/url][img]http://dl2.iteye.com/upload/attachment/0114/8...
2016-01-27 07:58:52 1227
原创 spark1.6.0搭建(基于hadoop2.6.0分布式)
本文是基于hadoop2.6.0的分布式环境搭建spark1.6.0的分布式集群。hadoop2.6.0分布式集群可参考:[url]http://kevin12.iteye.com/blog/2273532[/url]1.解压spark的包,tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz,并将其移到/usr/local/spark目录下面;在~/.bas...
2016-01-24 10:11:38 278
原创 hadoop2.6.0集群的搭建方法
[b]1.集群环境的安装[/b]1.1工具软件版本说明(软件尽量去官网下载):VMware Workstation :10.0.0 build-1295980Ubuntn:Ubuntn15.10JDK:jdk-8u60-linux-x64.tar.gz Hadoop:hadoop-2.6.0.tar.gzSecureCRT:Version 6.2.3 (build 313)...
2016-01-23 22:37:09 1167
原创 ubuntu 15.10虚拟机设置静态ip
1.先查看本机的VMnet8分配的网络如下:[img]http://dl2.iteye.com/upload/attachment/0114/7453/a195a635-ed3a-391b-97f7-e4798aa06359.png[/img]2.虚拟机设置选中NAT模式:[img]http://dl2.iteye.com/upload/attachment/0114/7455/3a1...
2016-01-23 15:07:39 133
原创 Ubuntu15.10设置用root账号登录
1.打开终端2.输入sudo vi /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf或输入sudo vim /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf(vim需安装)[Seat:*]user-session=ubuntugreeter-show-manual-login=tru...
2016-01-18 00:11:35 185
原创 VMware中安装了ubuntu全屏设置
在VMware虚拟机下的linux无法全屏的问题:在VMware虚拟机下的linux无法全屏的问题:1.点击“view”——然后将Autofit window这个选项勾选。(一般版本高的VMware虚拟机都会默认该设置) [color=red]这个一定不要忘了,否则就不能全屏。[/color]2.该步骤是关键,具体的操作为:点击“VM”——选中“install vmware-tool...
2016-01-18 00:09:20 354
原创 Could not set the project description for 'hotelseqbid.ws' because the project d
用eclipse 对项目进行Maven>Update Project...是报如下错误:Could not set the project description for 'hotelseqbid.ws' because the project description file (.project) is out of sync with the file system.先按这里的解决...
2016-01-13 17:21:13 2139
原创 ASCII码值表
ASCII码值表 来源:[url]http://blog.csdn.net/lxpbs8851/article/details/11525501[/url][code="java"]Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex---------------------...
2014-03-30 14:23:20 169
原创 linux 安装ant
1.确保你的虚拟机是联网状态,如果不是将虚拟机网络连接方式改成桥接模式,虚拟机网卡改成自动获取ip的方式。下面的操作都是在/usr/local目录操作的。2.下载ant 2.1.你可以直接从http://ant.apache.org/bindownload.cgi 中下载最新版本的apache-ant-1.9.3-bin.tar.gz ,然后将下载好的 apache-ant-1.9...
2014-03-26 11:30:11 398
原创 Hadoop Shuffle(洗牌)过程
博客来源:[url]http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html[/url]感谢该博客作者的讲解,同时也记录下来以后学习。[b]Hadoop计算中的Shuffle过程[/b]Shuffle 过程是MapReduce的核心,也被称为奇迹发...
2014-03-25 14:26:21 380
hive第一个字段为null
在hive中创建表后,将准备好的数据导入到该表中,如果第一个字段是int类型时,你通过select * from tablename;查询该表时候,第一个字段返回的是null的.解决方法:如果你出现的问题和上面的一样,很可能是你定义表的第一个字段是int类型,将其该成string类型后就可以了。先给出解决方法,具体原因有待分析。...
2014-03-20 23:17:02 406
hadoop2.2运行wordcount例子
转载请注明出处:[url]http://kevin12.iteye.com/blog/2028776[/url]hadoop2.2环境搭建好后可以运行wordcount例子来查看一个文件中的单词数量,废话不多说,看下面的步骤:首先在/usr/local/hadoop/下创建一个目录,是为了存放我们的测试文件,目录名称为myfile,在进入myfile中创建一个名称为wordcount.tx...
2014-03-10 11:46:46 145
hadoop pig 安装
[size=large][b]pig的安装方法:[/b][/size]链接地址:[url]http://kevin12.iteye.com/blog/2026327[/url]1.先从官网下载pig,我使用的版本是pig-0.11.1.tar.gz,放到linux的/usr/local目录下;2.执行命令 tar -zxvf pig-0.11.1.tar.gz,然后运行命令 mv ...
2014-03-05 21:39:46 133
原创 win7将本地文件复制到远程虚拟机中
链接地址:[url]http://kevin12.iteye.com/blog/2017998[/url]将本地电脑设置成“文件和打印机共享”的,设置方法如下:打开网络共享中心-》更改高级共享设置-》针对不同的网络配置文件更改共享选项中,文件和打印机共享下面的启用文件和打印机共享进行勾选,并保存修改。[img]http://dl2.iteye.com/upload/attach...
2014-02-17 13:24:28 1337
原创 sql中having和where区别
having和where区别:1.不能在where子句中过滤组,where子句仅用于过滤行。过滤组必须使用having子句。2.不能在where子句中使用组函数,having子句才可以使用组函数。where 子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,条件中不能包含聚组函数,使用where条件显示特定的行。having 子句的作用是...
2014-01-07 16:11:12 164
原创 BigDecimal实现double精度计算
java中的float 和double类型会发生精度丢失,为了能精确表示和计算浮点数,java提供BigDecimal类。创建BigDecimal对象时,不要直接使用double浮点数来创建一个BigDecimal对象,否则同样会发生精度丢失问题,要用String类型作为创建BigDecimal对象的参数,如BigDecimal d = new BigDecimal("0.05");程序中用对...
2014-01-07 16:08:35 244
原创 oracle数据库、数据库表的导出和导出
oracle数据库导出导入有很多方法,最常用的是:1.PL/SQL Developer导入导出数据这个比较方便。首先必须按照PL/SQL Developer客户端,连接上数据库。导出表数据: Tools(工具)-->Export Tables(导出表)-->选择要导出的表,选择输出文件保存的位置和文件名称。点击导出即可。[img]http://dl2.iteye.com/upl...
2013-11-28 11:35:10 306
原创 Invalid character '\n' in value part of property(Oracle)
链接地址:[url]http://kevin12.iteye.com/blog/1955888[/url]最近做项目时候用到spring和oracle了,但是启动项目时候包如下错误:[code="java"]严重: Error while registering Oracle JDBC Diagnosability MBean.javax.management.Malforme...
2013-10-12 17:11:13 860
原创 could not read column value from result set: NAME5_1_; 流已被关闭
最近做流程项目数据库是oracle,获取流程处理人时候出现下面的错误,错误太长,先给出解决方法:解决方法是:[color=red]jbpm4_lob 表NAME_ HIBERNATE类型为TEXT ,Hibernate自动创建的类型为long。导致could not read column value from result set: NAME5_1_; 流已被关闭 确保生成的字段...
2013-10-11 15:53:51 602
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人