自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

转载 我的博客搬家啦~

从今天起,我的博客园可能就不用了,感谢博客园将近三年的陪伴,在博客园上认识了很多朋友,也正是基于博客园这个平台,让我走进了现在这个行当,真的非常感谢!即日起,我的博客搬家到我在GitHub上的地址:mrchor.github.io。希望大家还能一如既往地支持我,在新的博客站,我将不仅仅讨论技术,也可以是生活,亦或者可以一起对对联,作作诗,写写词,各种各样的~~~转载于:https:/...

2017-05-05 13:30:00 152

转载 多种语言开发Spark-以WordCount为例

Spark是目前最火爆的大数据计算框架,有赶超Hadoop MapReduce的趋势。因此,趁着现在还有大多数人不懂得Spark开发的,赶紧好好学习吧,为了使不同的开发人员能够很好的利用Spark,Spark官方提供了不同开发语言的API,本文以大数据经典入门案例WordCount为例,开发多个版本的Spark应用程序,以满足不同的开发人员需求。一、Scala:   ...

2017-03-15 14:11:00 186

转载 Java开发中各种集合框架简介

在大数据MapReduce作业开发中,我们经常会遇到一些大小表的join,这是如果这个小表足够“小”的话,我们可以使用进行“map-join-side”,这要就可以有效的降低reduce端的压力,但是在常用的JDK的集合中的Map有些许鸡肋,因此,各路大神们针对这个问题开发出了不同的集合框架,用以替换原始集合,下面我们具体介绍几种常用的集合框架:首先,我们设想了一个场景——计算不同事业部...

2017-03-14 17:16:00 156

转载 大数据常见错误解决方案(转载)

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env....

2017-02-24 10:02:00 3111

转载 机器学习算法选择困惑

  很多同学包括我,在刚开始接触机器学习算法的时候,我们在碰到一个新的问题/需求/目的,不知道该用哪种算法来考虑这个问题。最近我也在看一些机器学习的东西,为了把Python再拿起来,所以选择了Python界著名的机器学习库——sklearn,sklearn比较人性化,对于以上困惑做出了自己的解答,原图地址:转载于:https://www.cnblogs.com/cstzhou/p...

2016-10-11 09:36:00 97

转载 最近面试被问到的问题总结(数据研发方向)

1、Linux命令实现单词计数并排序  cat 目标文件 | awk -F ' ' '{for(i=1;i<=NF;i++){print $i}}' | sort | uniq -c | sort -t ' ' -k1r | awk '{print $2 " " $1}' | more  解析:awk是一个非常强大的文本编辑命令,参数F是自定义的分隔符,这里的分隔符...

2016-09-29 18:06:00 92

转载 机器学习利器——Scikit-learn的安装

  由于笔者最近在进行毕业论文的准备,且毕业论文中需要用到Python版本的机器学习库——scikit-learn。所以最近三天一直在Windows上部署这个框架,终于部署成功了。。。  首先打开加州大学底下一个实验室的网站,下载以下安装包:  1、Numpy+MKL:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy  2、Sc...

2016-09-04 13:52:00 100

转载 编写shell脚本遇到的问题

运行shell脚本提示“syntax error near unexpected token for((i=0;i<$length;i++))”:原因是因为Linux下的换行符是 \n 而你在secureCRT或者其他工具编写shell脚本的时候,使用的是window下的换行符:\r\n所以需要设置一下文件的规范:在vim的命令模式下输入::set fileform...

2016-08-17 16:40:00 163

转载 DBCP配置数据库连接乱码问题

driverClassName = com.mysql.jdbc.Driverurl = jdbc:mysql:///bigdatausername = rootpassword = 823714connectionProperties="useUnicode=yes;characterEncoding=utf8;"转载于:https://www.cnb...

2016-06-30 14:41:00 163

转载 eclipse的maven项目报Missing artifact jdk.toos:jdk.toos:jar:1.6错

很多框架都会依赖jdk中的tools.jar,但是maven仓库中却没有. 如在eclipse+maven编写mapreduce代码,就会报Missing artifact jdk.toos:jdk.toos:jar:1.6 如何解决这个问题呢,只需要在项目的pom.xml 文件中加入以下配置,指定maven去本地寻找 tools.jar、<dep...

2016-05-31 23:20:00 209

转载 CM+CDH安装遇到的问题

1、实在是在安装CDH的时候无法安装成功的话,只有重新启动了,下面给大家分享一个神器,按照这个脚本应该差不多就能卸载干净,然后重新安装,写一个脚本,内容如下,救命的神器呀:#!/bin/bashsudo /usr/share/cmf/uninstall-cloudera-manager.shsudo service cloudera-scm-server stopsu...

2016-05-24 20:27:00 125

转载 分布式网络爬虫的基本实现简述

  一、前言    前一段时间,小小的写了一个爬虫,是关于电商网站的。今天,把它分享出来,供大家参考,如有不足之处,请见谅!(抱拳)  二、准备工作    我们实现的这个爬虫是Java编写的。所用到的框架或者技术如下:    Redis:分布式的Key-Value数据库,用来作存储临时的页面URL的仓库。    HttpClient:Apache旗下的一款软件,用来下...

2016-05-21 00:05:00 204

转载 远程访问MySQL遇到的一些问题

  一、access deny  GRANT ALL PRIVILEGES ON *.* TO '用户名'@'IP地址' IDENTIFIED BY '密码' with grant option;转载于:https://www.cnblogs.com/cstzhou/p/5504897.html

2016-05-18 13:25:00 65

转载 eclipse远程调试Hadoop

  环境需求:  系统:window 10  eclipse版本:Mars  Hadoop版本:2.6.0  资源需求:解压后的Hadoop-2.6.0,原压缩包自行下载:下载地址  丑话前头说:  以下的操作中,eclipse的启动均需要右键“管理员运行”!  在创建MapReduce的Project那块需要配置log4j(级别是debug),否则打印不出一些调试的信息...

2016-05-15 16:22:00 130

转载 利用Apache Ant编译Hadoop2.6.0-eclipse-plugin

  环境要求:系统不重要,重要的是要有Ant环境,这里不做赘述,自行百度配置去。  1)在github上下载Hadoop-eclipse-plugin-master的zip包,下载地址。  2)在Hadoop官网下载Hadoop2.6.0,下载地址。  3)解压上述俩压缩包。  4)在hadoop2x-eclipse-plugin-master\src\contrib\e...

2016-05-14 22:54:00 83

转载 Kafka在Centos6.4中的集群搭建

  环境要求:三台装有Centos6.4的虚拟机,需要有java1.7以上的环境,需要ZooKeeper环境。  1)从Kafka官网下载Kafka安装包    下载Kafka  2)解压安装包tar -xzf kafka_2.10-0.9.0.1.tgz   3)由于名字太长,改为kafka: mv kafka_2.10-0.9.0.1 kafka...

2016-05-12 20:21:00 70

转载 Hadoop MapReduce编程创建maven项目时所用到的pom依赖

<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> ...

2016-05-07 19:20:00 466

转载 Hadoop常用命令

一、Hadoop的hdfs dfs命令参数作用示例返回值appendToFile将一个或者多个本地文件追加到目的文件hdfsdfs-appendToFilelocalfile/user/hadoop/hadoopfileReturns0onsuccessand1onerrorcat输出文件h...

2016-05-07 15:21:00 69

转载 ZooKeeper在centos6.4的集群搭建

  首先给一个小tips,在搭建zookeeper之前,需要配置好java环境,请参看我的另一篇文章《Jdk1.8在CentOS7中的安装与配置》,还需要免密码登录,请参看我的另一篇文章《Hadoop2.6.0在CentOS 7中的集群搭建》。  集群配置信息:  server.0——192.168.10.110 master  server.1——192.168.10.1...

2016-05-05 20:01:00 74

转载 maven打包时使用的pom配置

<build> <plugins> <!-- compiler插件, 设定JDK版本 --> <plugin> <groupId>org.apache.maven.plugins</groupId> ...

2016-05-02 19:13:00 99

转载 C3P0连接池连接MySQL出现的问题

1、Clearing pending acquires. While trying to acquire a needed new resource, we failed to succeed more than the maximum number of allowed acquisition attempts (30). Last acquisition attempt except...

2016-04-30 10:33:00 228

转载 Redis在CentOS6.4中的安装

  首先,介绍一下Redis数据库。Redis是一种面向“键/值”对数据类型的内存数据库,可以满足我们对海量数据的读写需求。  1)redis的键只能是字符串;  2)redis的值支持多种数据类型:     a:字符串 string     b:哈希 hash     c:字符串列表 list     d:字符串集合 set 不重复,无序     ...

2016-04-27 19:02:00 100

转载 hadoop 集群部署ganglia 监控服务与nagios 报警服务

1. 部署ganglia 服务ganglia 涉及到的组件:数据监测节点(gmond):这个部件装在需要监测的节点上,用于收集本节点的运行情况,并将这些统计信息传送到gmetad,Ubuntu系统中的ganglia-monitor包可以安装;数据收集节点(gmetad、gweb):这个部件用于收集gmond发送的数据,并通过web部件将其...

2016-04-04 19:47:00 361

转载 cloudera manager安装步骤小结

1、准备三台虚拟机,系统是centos 7,IP分别是:  192.168.254.110  master  192.168.254.111  slave1  192.168.254.112  slave22、如果没有httpd服务的话 需要在master上安装一个httpd:  1) yum install httpd  #(安装)  2) systemctl ...

2016-04-02 13:06:00 89

转载 Cloudera Manager Admin控制台启动不起来

这几天都在搞大数据这一块,由于以前自己在弄hadoop等安装的时候特别的费劲,于是乎找到了广大程序员的福音——cloudera manager,但是第一步安装好了以后无法启动,再三思考+百度发现:通常有以下可能:service cloudera-scm-server-db是否启动service cloudera-scm-server是否启动service httpd...

2016-04-02 10:59:00 243

转载 virtual Box在Centos 7上的安装

1、首先,我们需要在oracle官网下载virtual Box的centos7版本:  下载地址为:http://download.virtualbox.org/virtualbox/5.0.12/VirtualBox-5.0-5.0.12_104815_el7-1.x86_64.rpm2、使用rpm安装virtualbox:  rpm -ivh VirtualBox...

2016-01-16 19:30:00 136

转载 Spark MLlib使用有感

  这些天在公司里面做文本分析的任务,我跟着玻哥一起做,先研究了算法的可行度,最后决定使用Google的Word2Vector和LDA算法来对文本进行分析。之前因为看过一些Spark的东西,所以准备瞄准MLlib,直接使用其机器学习库来进行算法的测试。  但是发现一个非常重大的问题——因为Spark默认是将RDD持久到内存中进行计算的,但是当我们加大数据量的时候,由于本集群的内存不是...

2015-08-12 17:03:00 121

转载 storm集群配置

1. 安装配置zookeeperStorm使用Zookeeper协调集群,由于Zookeeper并不用于消息传递,所以Storm给Zookeeper带来的压力相当低。对于Zookeeper集群的话,官方推荐的最小节点数为3个。在Zookeeper集群的每台机器上完成以下安装部署步骤:1、下载zookeeper本系统使用的是zookeeper-3.4.6...

2015-08-07 14:33:00 80

转载 eclipse配置hadoop插件

1. 版本信息eclipse windows 64 bithadoop 2.5.2 64 bithadoop eclipse-plug 2.5.22.下载hadoop-2.5.2.tar.gzhttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz...

2015-08-07 14:20:00 91

转载 HDFS的java接口——简化HDFS文件系统操作

今天闲来无事,于是把HDFS的基本操作用java写出简化程序出来给大家一些小小帮助!package com.quanttech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...

2015-07-16 17:54:00 132

转载 linux小技巧

1、删除目录下制定大小的文件  find . -name "*" -type f -size #文件的大小#c | xargs -n 1 rm -f转载于:https://www.cnblogs.com/cstzhou/p/4643561.html

2015-07-13 18:10:00 85

转载 写一个shell脚本利用wget抓取股票历史数据

  今天,大数据部老大交给我一项任务——抓取股票历史数据。于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具。我已经被深深震撼到了。下面叙述今天的一些过程,还是比较坎坷的。  首先,我利用公司现在存在的股票数据,使用hive查询所有的股票代码并导入本地:hive -e "use stock;select distinct secucode fro...

2015-07-13 17:03:00 264

转载 window环境下使用sbt编译spark源码

  前些天用maven编译打包spark,搞得焦头烂额的,各种错误,层出不穷,想想也是醉了,于是乎,换种方式,使用sbt编译,看看人品如何!  首先,从官网spark官网下载spark源码包,解压出来。我这边使用的是1.4.0版本。  然后,我们需要把sbt配置好,配置很简单,无非就是SBT_HOME什么的,大家可以参考官网给出的安装配置手册。  在window的命令行模式下...

2015-07-09 18:11:00 120

转载 实习, 这也是人生的重要篇章!

今天第一天实习,感觉还不错,带我的技术主管是个女的,人很好,对我也不错。加油,加油!转载于:https://www.cnblogs.com/cstzhou/p/4570123.html

2015-06-11 20:55:00 134

转载 Spark1.3.1 On Yarn的集群搭建

下面给出的是spark集群搭建的环境:操作系统:最小安装的CentOS 7(下载地址)Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4.0(下载地址)Java版本号:JDK1.8(下载地址)Scala版本号:Scala2.10.4(下载地址)Spark版本号:spark-1.3.1-bin-hadoop2....

2015-06-10 10:44:00 131

转载 windows环境下git的环境变量配置

  1、从官网下载git这个软件.msi格式,然后安装。  2、找到你的git的安装目录,并记录下来  3、配置环境变量:在path里加入—— ;你的git的安装目录\bin;你的git的安装目录\libexec\git-core; ——切勿丢了前面的小分号哦!转载于:https://www.cnblogs.com/cstzhou/p/4558550.html...

2015-06-07 15:51:00 332

转载 Hadoop/Spark环境运行过程中可能遇到的问题或注意事项

  1、集群启动的时候,从节点的datanode没有启动    问题原因:从节点的tmp/data下的配置文件中的clusterID与主节点的tmp/data下的配置文件中的clusterID不一致,导致集群启动时,hadoop会杀死从节点的datanode进程。    解决方案:    a)  将集群关闭;    b)  删除你在hadoop配置中设置的tmp下的dat...

2015-06-07 12:28:00 312

转载 Hadoop2.6.0在CentOS 7中的集群搭建

我这边给出我的集群环境是由一台主节点master和三台从节点slave组成:master 192.168.1.2slave1 192.168.1.3slave2 192.168.1.4slave3 192.168.1.5申明:我搭建的这个集群不是在普通用户,所以一下操作都是在超级用户root上。一、虚拟机的安装a)...

2015-06-06 22:56:00 57

转载 Scala2.10.4在CentOS7中的安装与配置

随着基于内存的大数据计算框架——spark的火爆流行,用于编写spark内核的Scala语言也随之流行开来。由于其编写代码的简洁性,受到了越来越多程序员的喜爱。我今天给大家展示的时Scala2.10.4在CentOS 7下的安装与配置:一、Scala下载我们需要在Scala官网下载Scala2.10.4压缩包二、Scala的安装a) 我们登录超级用户,在超...

2015-06-05 19:36:00 135

转载 Jdk1.8在CentOS7中的安装与配置

自从2014年3月19日甲骨文公司发布Java 8.0的正式版以来,面向对象的Java语言不仅朝着一个更好的方向发展,而且吸取了当前比较流行的函数式编程的特性——Java 8.0加入了函数式编程的特点。可以说是Java 8比Java 7有一个更好的性质。今天我将为大家演示一下Jdk 8在CentOS 7的安装与配置:一、前期准备环境:最小安装的CentOS 7(虚拟机安装的新版的...

2015-06-05 19:13:00 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除