jinyonglu168-CSDN博客

原创 Mysql tinyint和Sqlserver tinyint的区别，zerofill的使用

数据库表设计的时候一定要注意：Mysql里面，tinyint默认是有符号的，取值范围是-128到127，unsigned属性就是将数字类型无符号化 unsigned tinyint才是0-255；SQL Server支持bignt, int, smallint, tinyint这四种int，前三种都是有符号的，而tinyint却是无符号的，取值范围是0-255；所以，如果在这两个数据库...

2016-11-05 22:05:45 1849

原创 SparkStreaming pull data from Flume

Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html本例子是做一个Spark Streaming 从flume中拉取数据的实验。[b]1.面配置flume[/b]1.首先下载必须的jar：在上面的连接中有。并将其拷贝...

2016-06-19 17:29:40 248

原创 Flume push数据到SparkStreaming

上节[url]http://kevin12.iteye.com/blog/2305946[/url]将flume的环境搭建好，并测试了flume的故障转移功能，这节编码实现Flume推送数据到Spark Streaming中。下面的例子我只在master1上配置flume，worker1,worker2不进行配置了。[b]1.配置[/b]master1上修改配置文件root@maste...

2016-06-19 15:16:07 250

原创 Flume的安装和测试故障转移

[b]1.实现功能 [/b]配置Flume监控本地文件夹变化，将变化的文件上传到hdfs上。 [b]2.集群规划（3台机器都需要安装）[/b] [img]http://dl2.iteye.com/upload/attachment/0118/1297/28d83bb4-6f97-36c7-8f54-8b948969bfe4.jpg[/img][img]http://dl2.itey...

2016-06-19 14:56:53 481

原创 Flume的安装和测试故障转移

[b]1.实现功能[/b]配置Flume监控本地文件夹变化，将变化的文件上传到hdfs上。[b]2.集群规划（3台机器都需要安装）[/b][img]http://dl2.iteye.com/upload/attachment/0118/1266/d91f8424-2cce-3134-91cc-15fbe44be0f2.jpg[/img][b]3.软件准备[/b]下载软件包：ht...

2016-06-19 12:48:07 407

原创 Spark Streaming 统计单词的例子

测试Spark Streaming 统计单词的例子[b]1.准备[/b]事先在hdfs上创建两个目录：保存上传数据的目录：hdfs://master1:9000/library/SparkStreaming/datacheckpoint的目录：hdfs://master1:9000/library/SparkStreaming/CheckPoint_data[b]2.源...

2016-06-19 12:29:38 424

原创 Spark SQL窗口函数

窗口函数又叫着窗口分析函数，Spark 1.4版本SparkSQL支持窗口分析函数，主要用于分组函数；理解窗口函数，可以参考blog去了理解：[url]http://www.cnblogs.com/CareySon/p/3411176.html[/url][b]数据准备（用空格隔开）[/b][code="java"]Spark 100Hadoop 65Spark 99Had...

2016-04-22 07:18:37 383

原创 Spark SQL内置函数应用

[b]简单说明[/b] 使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果返回一个Column对象，而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性，...

2016-04-22 07:00:36 424

原创 Spark SQL操作Hive数据库

本次例子通过scala编程实现Spark SQL操作Hive数据库！Hadoop集群搭建：[url]http://kevin12.iteye.com/blog/2273532[/url]Spark集群搭建：[url]http://kevin12.iteye.com/blog/2273532[/url][b]数据准备[/b]在/usr/local/sparkApps/SparkS...

2016-04-13 22:37:39 1621

原创 Spark SQL on hive配置和实战

spark sql 官网：[url]http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext[/url]首先要配置好hive，保存元数据到mysql中，参考：[url]http://kevin12.iteye.com/blog/2280777[/url]然后配置S...

2016-03-26 18:40:52 469

原创 Hive分析搜索引擎的数据（搜狗实验室数据）

搜狗实验室：[url]http://www.sogou.com/labs/resources.html[/url]用户查询日志：[url]http://www.sogou.com/labs/dl/q.html[/url][img]http://dl2.iteye.com/upload/attachment/0115/7437/85656402-5732-3811-8bb3-aadc2e...

2016-03-13 12:48:59 961

原创 Hive使用默认数据库derby报错及解决方法

在使用derby数据库时，遇到了很多错误，报错信息和解决方法如下，记录下来：[b]一,配置问题[/b][code="java"]Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.prop...

2016-03-05 21:19:16 1351

原创 Hive1.2.1安装和使用(基于Hadoop2.6.0)

安装hive，这里使用mysql作为hive的metastore;[b]Ubuntu 15.10虚拟机中安装mysql方法请看：[/b][url]http://kevin12.iteye.com/admin/blogs/2280771[/url][b]Hadoop2.6.0集群安装：[/b][url]http://kevin12.iteye.com/blog/2273532[/url]...

2016-03-05 20:22:05 431

原创 ubuntu 15.10中msyql开启远程端口服务

[b]开启远程访问端口[/b]首先查看端口是否打开[code="java"] root@master1:netstat -an|grep 3306[/code]显示结果：[code="java"]tcp 0 0 127.0.0.1:3306 0.0.0.0:* LISTEN[/code]上面说明mysql的3306端口只是监听本地的连接，并没有开启远程端口服务，阻碍外部IP对该数据库的...

2016-03-05 14:18:54 151

原创 ubuntu 15.10安装mysql数据库开启远程端口

最近基于hadoop-2.6.0安装apache-hive-1.2.1-bin，需要安装mysql数据库（Hive默认使用的derby）。简单说明：Hive有一套映射工具，可以把SQL转换为MapReduce中的job，可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore，一般存放在derby、mysql中。derby不能被多个客户端共同...

2016-03-05 14:11:20 188

原创 eclipse开发hadoop环境搭建

[b]Hadoop2.6.0集群搭建完毕后，下面介绍一下eclipse是如何开发hadoop程序（即MapReduce程序）的。[/b]1.jdk安装hadoop集群的搭建，不再详述，参考[url]http://kevin12.iteye.com/blog/2273556[/url]；下面运行下hadoop自带的wordcount例子：2.先将hadoop-2.6.0目录下面的READ...

2016-02-13 14:54:26 275

原创 Spark RDD弹性表现和来源

hadoop 的MapReduce是基于数据集的,位置感知，容错负载均衡基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；基于数据集的操作不适应的场景：1，不适合于大量的迭代2，交互式查询重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果;spark RDD是基于工作集的工作流和工作集的共同特点：位置感知，自动容错，负载均衡等...

2016-02-09 20:12:56 519

1.在将spark内核架构前，先了解一下Hadoop的MR，Hadoop的MR分为Map和Reduce阶段，在Map阶段产生的中间结果要写回到磁盘，它和Reduce之间还有Shuffle操作，这个操作需要从网络节点进行数据拷贝，大量时间耗费在网络传输上，网络传输导致Hadoop的MR慢的原因之一，所以在很多情况下只适合离线计算。2.Spark的RDD（Resilient Distributed...

2016-02-07 12:24:56 114

原创 spark集群HA搭建

spark集群的HA图：[img]http://dl2.iteye.com/upload/attachment/0114/9089/eb35dece-fea3-3f5b-b200-07fa6406c463.png[/img]搭建spark的HA需要安装zookeeper集群，下面简单说明一下zookeeper集群的安装方法；我是将master1,worker1,worker2上...

2016-01-31 08:50:27 375

原创 Spark集群中WordCount运行原理

以数据流动的视角解释一下wordcount运行的原理[code="java"]package com.imf.spark.wordcountimport org.apache.spark.{SparkContext, SparkConf}/** * Created by vivi on 2016/1/27. */object WordCount {d...

2016-01-31 07:05:23 279

原创 eclipse开发spark程序配置在集群上运行

这篇bolg讲一下，IDE开发的spark程序如何提交到集群上运行。首先保证你的集群是运行成功的，集群搭建可以参考[url]http://kevin12.iteye.com/blog/2273556[/url]开发集群测试的spark wordcount程序；[b]1.hdfs数据准备.[/b]先将README.md文件上传到hdfs上的/library/wordcount/i...

2016-01-27 08:08:36 752

原创 eclipse开发spark程序配置本地运行

今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序，并在本地运行测试。1.下载最新版的scala for eclipse版本，选择windows 64位，下载网址：[url]http://scala-ide.org/download/sdk.html[/url][img]http://dl2.iteye.com/upload/attachment/0114/8...

2016-01-27 07:58:52 1227

原创 spark1.6.0搭建（基于hadoop2.6.0分布式）

本文是基于hadoop2.6.0的分布式环境搭建spark1.6.0的分布式集群。hadoop2.6.0分布式集群可参考：[url]http://kevin12.iteye.com/blog/2273532[/url]1.解压spark的包，tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz，并将其移到/usr/local/spark目录下面；在~/.bas...

2016-01-24 10:11:38 278

原创 hadoop2.6.0集群的搭建方法

[b]1.集群环境的安装[/b]1.1工具软件版本说明（软件尽量去官网下载）：VMware Workstation :10.0.0 build-1295980Ubuntn:Ubuntn15.10JDK：jdk-8u60-linux-x64.tar.gz Hadoop:hadoop-2.6.0.tar.gzSecureCRT：Version 6.2.3 (build 313)...

2016-01-23 22:37:09 1167

原创 ubuntu 15.10虚拟机设置静态ip

1.先查看本机的VMnet8分配的网络如下:[img]http://dl2.iteye.com/upload/attachment/0114/7453/a195a635-ed3a-391b-97f7-e4798aa06359.png[/img]2.虚拟机设置选中NAT模式：[img]http://dl2.iteye.com/upload/attachment/0114/7455/3a1...

2016-01-23 15:07:39 133

原创 Ubuntu15.10设置用root账号登录

1.打开终端2.输入sudo vi /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf或输入sudo vim /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf（vim需安装）[Seat:*]user-session=ubuntugreeter-show-manual-login=tru...

2016-01-18 00:11:35 185

原创 VMware中安装了ubuntu全屏设置

在VMware虚拟机下的linux无法全屏的问题：在VMware虚拟机下的linux无法全屏的问题：1.点击“view”——然后将Autofit window这个选项勾选。（一般版本高的VMware虚拟机都会默认该设置） [color=red]这个一定不要忘了，否则就不能全屏。[/color]2.该步骤是关键，具体的操作为：点击“VM”——选中“install vmware-tool...

2016-01-18 00:09:20 354

原创 Could not set the project description for 'hotelseqbid.ws' because the project d

用eclipse 对项目进行Maven>Update Project...是报如下错误：Could not set the project description for 'hotelseqbid.ws' because the project description file (.project) is out of sync with the file system.先按这里的解决...

2016-01-13 17:21:13 2139

原创 ASCII码值表

ASCII码值表来源：[url]http://blog.csdn.net/lxpbs8851/article/details/11525501[/url][code="java"]Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex---------------------...

2014-03-30 14:23:20 169

原创 linux 安装ant

1.确保你的虚拟机是联网状态，如果不是将虚拟机网络连接方式改成桥接模式，虚拟机网卡改成自动获取ip的方式。下面的操作都是在/usr/local目录操作的。2.下载ant 2.1.你可以直接从http://ant.apache.org/bindownload.cgi 中下载最新版本的apache-ant-1.9.3-bin.tar.gz ，然后将下载好的 apache-ant-1.9...

2014-03-26 11:30:11 398

原创 Hadoop Shuffle（洗牌）过程

博客来源：[url]http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html[/url]感谢该博客作者的讲解，同时也记录下来以后学习。[b]Hadoop计算中的Shuffle过程[/b]Shuffle 过程是MapReduce的核心，也被称为奇迹发...

2014-03-25 14:26:21 380

hive第一个字段为null

在hive中创建表后，将准备好的数据导入到该表中，如果第一个字段是int类型时，你通过select * from tablename;查询该表时候，第一个字段返回的是null的.解决方法：如果你出现的问题和上面的一样，很可能是你定义表的第一个字段是int类型，将其该成string类型后就可以了。先给出解决方法，具体原因有待分析。...

2014-03-20 23:17:02 406

hadoop2.2运行wordcount例子

转载请注明出处：[url]http://kevin12.iteye.com/blog/2028776[/url]hadoop2.2环境搭建好后可以运行wordcount例子来查看一个文件中的单词数量，废话不多说，看下面的步骤：首先在/usr/local/hadoop/下创建一个目录，是为了存放我们的测试文件，目录名称为myfile,在进入myfile中创建一个名称为wordcount.tx...

2014-03-10 11:46:46 145

hadoop pig 安装

[size=large][b]pig的安装方法：[/b][/size]链接地址：[url]http://kevin12.iteye.com/blog/2026327[/url]1.先从官网下载pig，我使用的版本是pig-0.11.1.tar.gz，放到linux的/usr/local目录下；2.执行命令 tar -zxvf pig-0.11.1.tar.gz，然后运行命令 mv ...

2014-03-05 21:39:46 133

原创 win7将本地文件复制到远程虚拟机中

链接地址：[url]http://kevin12.iteye.com/blog/2017998[/url]将本地电脑设置成“文件和打印机共享”的，设置方法如下：打开网络共享中心-》更改高级共享设置-》针对不同的网络配置文件更改共享选项中，文件和打印机共享下面的启用文件和打印机共享进行勾选，并保存修改。[img]http://dl2.iteye.com/upload/attach...

2014-02-17 13:24:28 1337

原创 sql中having和where区别

having和where区别：1.不能在where子句中过滤组，where子句仅用于过滤行。过滤组必须使用having子句。2.不能在where子句中使用组函数，having子句才可以使用组函数。where 子句的作用是在对查询结果进行分组前，将不符合where条件的行去掉，即在分组之前过滤数据，条件中不能包含聚组函数，使用where条件显示特定的行。having 子句的作用是...

2014-01-07 16:11:12 164

原创 BigDecimal实现double精度计算

java中的float 和double类型会发生精度丢失，为了能精确表示和计算浮点数，java提供BigDecimal类。创建BigDecimal对象时，不要直接使用double浮点数来创建一个BigDecimal对象，否则同样会发生精度丢失问题，要用String类型作为创建BigDecimal对象的参数，如BigDecimal d = new BigDecimal("0.05");程序中用对...

2014-01-07 16:08:35 244

原创 oracle数据库、数据库表的导出和导出

oracle数据库导出导入有很多方法，最常用的是：1.PL/SQL Developer导入导出数据这个比较方便。首先必须按照PL/SQL Developer客户端，连接上数据库。导出表数据: Tools(工具)-->Export Tables(导出表)-->选择要导出的表，选择输出文件保存的位置和文件名称。点击导出即可。[img]http://dl2.iteye.com/upl...

2013-11-28 11:35:10 306

原创 Invalid character '\n' in value part of property（Oracle）

链接地址：[url]http://kevin12.iteye.com/blog/1955888[/url]最近做项目时候用到spring和oracle了，但是启动项目时候包如下错误：[code="java"]严重: Error while registering Oracle JDBC Diagnosability MBean.javax.management.Malforme...

2013-10-12 17:11:13 860

原创 could not read column value from result set: NAME5_1_; 流已被关闭

最近做流程项目数据库是oracle，获取流程处理人时候出现下面的错误，错误太长，先给出解决方法：解决方法是：[color=red]jbpm4_lob 表NAME_ HIBERNATE类型为TEXT ,Hibernate自动创建的类型为long。导致could not read column value from result set: NAME5_1_; 流已被关闭确保生成的字段...

2013-10-11 15:53:51 602

二手书销售系统设计说明书

空空如也