- 博客(25)
- 资源 (8)
- 收藏
- 关注
原创 大数据项目开发步骤
第一步:需求:数据的输入和数据的产出,大数据技术就好比一台榨汁机,数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁;第二步:数据量、处理效率、可靠性、可维护性、简洁性;第三步:数据建模;第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;第五步:再次思考大数据系统和企业IT系统的交互;第六步:最终确定选择、规范等;第七步:基于数据建模写基础服
2016-10-07 20:34:59 8385
原创 使用IDEA构建Spark开发环境(支持maven)
1、打开Idea,新建maven工程\新建maven项目成功后之后,就会看到如下工程结构:2、修改pom.xml文件增加如下内容: Akka repository http://repo.akka.io/releases
2016-03-24 00:30:59 10120
原创 linux下时间同步的方法
1、使用命令crontab -e,加入如下代码:*/1 * * * * /usr/sbin/ntpdate time.nist.gov >>/test.log说明:每分钟执行一次时间同步,并把日志输出到/text.log文件中2、删除本地时间并设置时区为上海rm -rf /etc/localtimeln -s /usr/share/zoneinfo/Asia/Sha
2015-11-29 14:15:24 490
转载 如何提高自己的技能
1. 提高硬实力:没有过硬的编程水平,一切免谈。所以先练好编程武功,再说格调。现在网络上免费学习资源特别多,根本没必要花大钱去参加什么培训班。会自学的在家里学习绝对比培训机构强N倍。小编自学至今就基本没花过什么钱,PDF都有百度云盘什么的免费下载,软件么你懂的,视频也有免费下载或在线观看的,无需花钱买什么网站的VIP年会员。加入程序员联盟,有很多编程资源共享。多去Github,Gitlab,Hac
2015-11-23 11:56:03 540
原创 Flume与Kafka整合之把flume中的数据sink到Kafka
一、说明版本介绍:apache-flume-1.6.0-bin + kafka_2.10-0.8.2.0场景说明:把flume中的数据sink到Kafka集群说明:192.168.215.90 broker、consumer、zookeeper 、flume192.168.215.110 broker、zookeeper192.168.2
2015-10-18 21:50:22 11478
原创 storm集群搭建
一、集群部署如下:192.168.215.90 主节点Nimbus192.168.215.110 工作节点Supervisor 192.168.215.120 工作节点Supervisor二、安装zookeeper集群(要保证集群各个节点的时间保持一致)为保证集群各个节点的时间保持一致,需要创建一个定时器,同步服务器时间:命令如下cron
2015-10-18 10:24:00 534
原创 flume的使用
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d
2015-10-09 22:34:19 511
原创 Kafka的JAVA操作
一、在pom.xml文件中添加依赖org.apache.kafkakafka_2.100.8.2.0二、编写生产者Producer package kafka;import java.util.Properties;import kafka.producer.KeyedMessage;import kafka.producer.ProducerCo
2015-10-08 22:41:19 1001
原创 kafka集群搭建
搭建kafka集群,首先得搭建ZooKeeper集群,请参见《ZooKeeper集群搭建》机器部署角色情况如下:192.168.215.90 broker、producer、consumer192.168.215.110 broker、consumer192.168.215.120 broker一、在每个节点启动ZooKeeper服务zk
2015-10-08 00:03:43 531
原创 ZooKeeper集群搭建
1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量 解压缩:tar -zxvf zookeeper-3.4.5.tar.gz
2015-10-07 23:22:27 529
原创 Hive通过动态分区装载数据
进入hive:1、创建分区表t12create table t12(id int,name string) partitioned by (year:int,month:int) row format delimited fields terminated by '\t';2、装载数据到分区表t12load data local inpath 'data/t8' into ta
2015-10-06 14:14:07 8277
原创 使用JAVA操作HIVE
一、 首先,在机器上打开hiveservicehive --service hiveserver -p 50000 &打开50000端口,然后java就可以使用java连了,需要的jar包我发个图片二、编写代码package hive;import java.sql.Connection;import java.sql.DriverManager;import
2015-10-06 11:46:57 1173
原创 更改hive的日志级别
vi $HIVE_HOME/conf/hive-log4j.properties 找到并修改hive.root.logger属性,如下所示:hive.root.logger=DEBUG,DRFA
2015-10-03 16:17:42 5380
原创 使用Hive整合Hbase
一、配置1、根据hive的版本去maven仓库找hive-hbase-handler.jar。org.apache.hivehive-hbase-handler0.14.0把下载到的hive-hbase-handler-0.14.0.jar放到hive的lib目录下。附:对hive和hbase的版本要求非常严格,必须要版本匹配才行。如何匹配版本?
2015-10-03 10:48:24 951
转载 JAVA实现json和对象间的相互转换,支持复杂对象格式
jackson-core-asl-1.9.12.jarjackson-mapper-asl-1.9.12.jarpackage com.psd.test;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.List;import org.apache.commons.
2015-09-28 11:16:35 4289
原创 Nutch爬虫爬取视频研究文档
一、爬虫框架说明爬虫框架使用Nutch1.7+Solr4.3+Jsoup1.7.1。其中,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。我们主要用它来爬取页面,检索我们用的Solr框架,它的功能比Nutch自带的搜索强大。Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展
2015-09-25 15:41:01 2602 1
原创 实现一个工具类,可以把HBase任意表的任意多的列导出到任意指定的HDFS中
package hbase;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apac
2015-09-23 19:39:11 443
原创 HBase设置jar包运行所需要的环境变量
一、写shell脚本,设置jar包运行所需要的环境变量vi /download/set_hadoop_classpath pt='.'for jar in `ls /usr/local/hbase/lib/*.jar`do pt=$pt:$jardone二、当前用户下,生效脚本source /download/set_hadoop_classpath
2015-09-22 07:23:21 1671
原创 Redis安装
一、首先安装c的编译环境参考:http://xueliang1yi.blog.163.com/blog/static/1145570162012102114635764/ yum -y install cpp yum -y install binutils yum -y install glibc yum -y install glibc-kernhea
2015-09-20 20:35:49 344
原创 VM10安装CentOS6.5网络配置
1、安装CentOs虚拟机时,选择网卡为桥接方式2、安装完毕后,图形界面进入系统,修改IP为静态地址安装完成,系统会默认选择自动生成IP,右击网络图标选择Connection Infomation,查看自动生成IP信息,为手动修改IP提供参考3、修改IP为静态地址后,通过命令重启网络或者重启虚拟机,就ok了
2015-09-05 13:55:39 511
转载 Windows下使用Hadoop2.6.0-eclipse-plugin插件
首先说一下本人的环境:Windows7 64位系统Spring Tool Suite Version: 3.4.0.RELEASEHadoop2.6.0一.简介 Hadoop2.x之后没有Eclipse插件工具,我们就不能在Eclipse上调试代码,我们要把写好的java代码的MapReduce打包成jar然后在Linux上运行,所以这
2015-09-04 19:00:55 1719
转载 vmware下启动Centos虚拟机报错虚拟无法打开磁盘
“打不开磁盘“H:\centos-6.0-710\CentOS 64 位.vmdk”或它所依赖的某个快照磁盘 ” 原因: 未能锁定文件” 这主要是非正常关虚拟机造成的,具体原因如下:虚拟机为了防止有多虚拟机共用一个虚拟磁盘(就是后 缀为.vmdk那个文件)造成数据的丢失和性能的削弱,每次启动虚拟机时会给每个虚拟磁盘加一个磁盘锁(也就是后缀为.lck的那个文件夹)对虚拟磁盘文件 进行
2015-09-04 18:57:50 3239
原创 使用目前hadoop内置的序列化类(不使用自定义序列化类),实现流量统计的功能
代码如下:package hadoop2;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import
2015-09-04 16:50:10 464
最全的Hibernate Annotation API文档
2012-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人