自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark1.5堆内存分配

Spark1.5堆内存分配这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只允许我们使用堆内存的90%,这在spark的spark.storage.safetyFraction 参数中配置着。也许你听说的spar

2016-11-08 15:22:33 3261

转载 java动态代理(JDK和cglib)

java动态代理(JDK和cglib)JAVA的动态代理 代理模式 代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代理类主要负责为委托类预处理消息、过滤消息、把消息转发给委托类,以及事后处理消息等。代理类与委托类之间通常会存在关联关系,一个代理类的对象与一个委托类的对象关联,代理类的对象本身并不真正实现服务,而是通过调用委托类的对象的相关方法,来提供特

2016-09-30 20:49:23 1013

转载 缓存淘汰算法--LRU算法

1. LRU1.1. 原理LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。1.2. 实现最常见的实现是使用一个链表保存缓存数据,详细算法实现如下:1. 新数据插入到链表头部;2. 每当缓存命中(即缓存数

2016-09-17 16:43:18 1563

转载 关键字static/const的作用

这个简单的问题很少有人能回答完全。在C语言中,关键字static有三个明显的作用:1)在函数体内,一个被声明为静态的变量在这一函数被调用过程中维持其值不变(该变量存放在静态变量区)。2) 在模块内(但在函数体外),一个被声明为静态的变量可以被模块内所用函数访问,但不能被模块外其它函数访问。它是一个本地的全局变量。3) 在模块内,一个被声明为静态的函数只可被这一模块内的其它函

2016-09-17 15:56:47 453

转载 大数据常见算法题

一般采用分治法!,大文件映射成小文件1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:将大文件分成能够被内存加载的小文件。可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取

2016-09-02 16:40:53 4471

转载 有一个1G大小的一个资料,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词.首先,我们看到这个题目应该做一下计算,大概的计算,因为大家都清楚的知道1G的文件不可能用1M的内存空间处理。所以我们要按照1M的上线来计算,假设每个单词都为16个字节,那么1M的内存可以处理多少个单词呢? 1M = 1024 KB = 1024 * 1024 B 。然后1

2016-09-02 11:16:35 5035 1

转载 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。

说明:本文分为三部分内容,    第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。------------------------------------ 第一部分:Top K 算法详解问题描述百度面试题:    搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询

2016-08-12 13:36:55 7043 1

转载 提取出某日访问百度次数最多的那个IP

问题描述:海量日志数据,提取出某日访问百度次数最多的那个IP。方法: 计数法    假设一天之内某个IP访问百度的次数不超过40亿次,则访问次数可以用unsigned表示.用数组统计出每个IP地址出现的次数,  即可得到访问次数最大的IP地址.    IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 创建一个unsigned count[N];的数组

2016-08-12 11:05:15 7502

转载 计算机网络常见面试题总结

原文:http://blog.csdn.net/jxh_123/article/details/40316081计算机网络常见面试题总结1.       OSI , TCP/IP ,五层协议的体系结构OSI分层(7层) :物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。 TCP/IP分层(4层) :网络接口层、网际层、运输层、应用层。 五层协议(

2016-07-16 09:32:15 443

转载 详解Java GC的工作原理

JVM学习笔记之JVM内存管理和JVM垃圾回收的概念,JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,另外JVM分别对新生代和旧生代采用不同的垃圾回收机制。首先来看一下JVM内存结构,它是由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示。JVM学习笔记 JVM内存管理和JVM垃圾回收JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,

2016-07-15 16:12:10 450

转载 进程和线程关系及区别

1.定义进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.2.关系

2016-07-06 16:17:49 380 1

转载 Java中堆内存和栈内存详解

Java把内存分成两种,一种叫做栈内存,一种叫做堆内存在函数中定义的一些基本类型的变量和对象的引用变量都是在函数的栈内存中分配。当在一段代码块中定义一个变量时,java就在栈中为这个变量分配内存空间,当超过变量的作用域后,java会自动释放掉为该变量分配的内存空间,该内存空间可以立刻被另作他用。堆内存用于存放由new创建的对象和数组。在堆中分配的内存,由java虚拟机自动垃圾回收器

2016-07-06 15:17:16 314 1

转载 经典数据结构 [ B树,B+树 ]

B 树是为了磁盘或其它存储设备而设计的一种多叉(下面你会看到,相对于二叉,B树每个内结点有多个分支,即多叉)平衡查找树。B 树又叫平衡多路查找树。一棵m阶的B 树 (m叉树)的特性如下:树中每个结点最多含有m个孩子(m>=2);除根结点和叶子结点外,其它每个结点至少有[ceil(m / 2)]个孩子(其中ceil(x)是一个取上限的函数);若根结点不是叶子结点,则至少有2个孩子

2016-07-06 15:06:56 2709 2

转载 堆和栈的区别(内存和数据结构)

数据结构的栈和堆首先在数据结构上要知道堆栈,尽管我们这么称呼它,但实际上堆栈是两种数据结构:堆和栈。堆和栈都是一种数据项按序排列的数据结构。栈就像装数据的桶或箱子  我们先从大家比较熟悉的栈说起吧,它是一种具有后进先出性质的数据结构,也就是说后存放的先取,先存放的后取。这就如同我们要取出放在箱子里面底下的东西(放入的比较早的物体),我们首先要移开压在它上面的物体(放入的比较

2016-07-06 14:28:54 354

原创 centos修改用户名

先用root登陆,然后依次修改以下文件:/etc/passwd、/etc/shadow、/etc/group、/etc/gshadow最后执行mv /home/oldname /home/newname(没执行这步,会提示No directory /home/newname, logging in with HOME=/)

2016-07-02 23:31:03 7758 1

转载 解决sqoop java.util.NoSuchElementException

如果报错 11/08/05 10:51:22 INFO mapred.JobClient: Running job: job_201108051007_0010  11/08/05 10:51:23 INFO mapred.JobClient:  map 0% reduce 0%  11/08/05 10:51:36 INFO mapred.JobClient: Task Id : a

2016-07-01 22:28:09 2364

转载 Hive内置数据类型

Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这些类型。数据类型

2016-07-01 22:23:51 589

转载 Hive修改表语句

0x01:重命名表1ALTER TABLE table_name RENAME TO new_table_name;上面这个命令可以重命名表,数据所在的位置和分区都没有改变。0x02:改变列名/类型/位置/注释1ALTER TABLE table_name CHANGE

2016-07-01 21:13:13 998

原创 Failed with exception Unable to rename: hdfs://ns1/tmp/hive-hadoop/hive...to...

Failed with exception Unable to rename: hdfs://ns1/tmp/hive-hadoop/hive...to...,FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask出现这个原因的是因为/user/hive/warehouse目录还

2016-07-01 17:05:12 3846 1

转载 Flume-ng-1.4.0安装及运行遇到问题总结

1、到官方网上下载apache-flume-1.4.0-bin.tar.gz2、解压安装包    tar -zxvf apache-flume-1.4.0-bin.tar.gz3、配置环境变量export FLUME_HOME=/root/install/apache-flume-1.4.0-binexport PATH=$PATH:$FLUME_HOME/bi

2016-06-30 19:23:08 1485

转载 Linux定时任务Crontab详解

原文地址:http://edu.codepub.com/2011/0104/28518.php    今天做了个数据库的备份脚本,顺便系统得学习一下Linux下定时执行脚本的设置。Linux下的定时执行主要是使用crontab文件中加入定制计划来执行,设置比Windows稍微复杂一些(因为没有图形界面嘛),但是也不是非常复杂,基本上用过一遍就能记住了,关键是要记住/var/spoo

2016-06-30 17:18:35 325

转载 【hadoop sqoop】运行sqoop 报 Could not find or load main class org.apache.sqoop.Sqoop

又是一个缺少JAR 包导致的错误。从apache网站上下载sqoop-1.4.3.tar.gz 解压后 运行sqloop 报错。[hadoop@hadoop1 jobTracker]$ sqoop Error: Could not find or load main class org.apache.sqoop.Sqoop后来分析原因是缺少sqoop-1.4.3.j

2016-06-30 12:59:23 2403

转载 Hbase:java.lang.IllegalArgumentException: Not a host:port pair: PBUF

当用JavaAPI操作Hbase时,如果出现Hbase:java.lang.IllegalArgumentException: Not a host:port pair: PBUF这个原则,这样是因为项目包含的jar包和hbase服务器的版本不一致,将引用的jar包改成对应的版本即可

2016-06-28 16:40:37 2397

原创 zookeeper启动失败的排错

1.执行zkServer.sh start 后显示:JMX enabled by defaultUsing config:/home/hadoop/app/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... STARTED2.jps后发现没有QuorumPeerMain进程3.查看zookeeper-3

2016-06-27 13:06:47 52207 1

原创 mac电脑的eclipse把mapreduce程序提交到hadoop2.x集群虚拟机上运行

把配置文件(core-site.xml、mapred-site.xml、yarn-site.xml、hdfs-site.xml)拷贝到eclipse项目的src目录下,然后把项目打成jar包(如wc.jar),放到项目根目录下设置参数conf.set("mapreduce.job.jar","wc.jar"),然后运行main方法即可当然要先确保mac可以连接上虚拟机。如通过tel

2016-06-26 15:48:43 748

原创 <hostname>:9000 failed on connection exception: java.net.ConnectException: 拒绝连接

1.首先确保hadoop相应进程是否开启,通过jps查看是否有namenode进程2.然后通过netstat -nltp|grep 9000查看9000端口是否处于监听状态,3.接着通过sudo service iptables status查看防火墙是否开启,如果开启则通过sudo service iptables stop将其关闭通过上面的步骤能够百分之八十解决该问题

2016-06-26 14:14:33 19947 3

原创 键入service iptables status/start/restart无任何反应

键入service iptables status/start/restart无任何反应首先要确保进入管理员(su)用户,或者在service iptables status/start/restart前加上sudo,输入命令后还是没反应,则初始化iptables。iptables -F   sudo service iptables savesudo service ipta

2016-06-26 13:54:19 9402

转载 从高版本JDK换成低版本JDK报错Unsupported major.minor version 52.0

ava.lang.UnsupportedClassVersionError: PR/Sort : Unsupported major.minor version 52.0这个错误是由于高版本的java project使用了低版本的来运行。我出现这个情况是我把Properties中java build path-->Libraries中的JVM8换成JVM7

2016-06-25 22:11:38 438

原创 mac parallels desktop使用host-only配置虚拟机ip

1.选择要配置的虚拟机,打开设置-硬件-网络,源选择host-only2.打开parallels desktop的偏好设置-网络,选择host-only,记住其IP地址范围3.在虚拟机上配置2中范围内的任意ip地址即可

2016-06-25 13:23:13 16589 2

转载 破解安装 SecureCRT 7.0.2 for mac完美破解版,mac secureCRT , apple secureCRT

破解安装 SecureCRT 7.0.2 for mac完美破解版,mac secureCRT , apple secureCRTmac secureCRT , apple secureCRT下载地址:http://download.csdn.net/detail/guolichun/7733069破解安装  SecureCRT 7.0.2 for mac完美破

2016-06-25 12:30:31 4531

原创 hive(0.12.0)配置并启动hwi

1、hive-site.xml配置  hive.hwi.war.file lib/hive-hwi-0.12.0.war This sets the path to the HWI war file, relative to ${HIVE_HOME}.    hive.hwi.listen.host 0.0.0.0

2016-06-23 15:08:25 318

原创 mac上运行hadoop2.x报unable to load native-hadoop library错误

已编译好的native地址:http://pan.baidu.com/s/1i54Pzr3下载后将其内容覆盖到hadoop/lib/native中即可

2016-06-22 22:07:32 903 2

转载 Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -db

问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.原因:由于没有初始

2016-06-22 22:00:29 2044

原创 eclipse搭建hadoop源码调试环境

官网下载的hadoop源码不是eclipse工程,需要重新编译本机系统:ubuntu1.安装工具使用sudo apt-get install依次安装ant,libtool,autoconf,automaker2.编译打开终端,进入hadoop解压的目录,然后分别执行ant clean,ant eclipse verbose,编译成功后如下图所示3.导入hadoop

2016-05-05 12:54:52 888

原创 实验报告:使用MapReduce实现PageRank算法

使用MapReduce实现PageRank算法

2015-07-30 19:36:16 2755 1

原创 用协同过滤算法对电影评分,并使用RMSE算出预测误差的MapReduce实现

MapReduce程序实现Mean.java:该MapReduce用来计算每部电影的平均评分Regular.java:该MapReduce用来对数据进行去中心化,即用每一行记录的评分减去该行对应电影的平均分ExtractTestData.java:该MapReduce用来从数据集中抽取出119条记录作为测试集MovieSimilar.java:该MapReduce用余弦值作为相似度计算

2015-06-30 20:06:35 4840

原创 通过图形化操作在Linux Mint配置静态ip

本文讲解了如何通过图形化操作在Linux Mint配置静态ip,使其能够访问外网一、在Windows下打开dos命令行终端,执行ipconfig,查看都的VMnet1的ipv4地址如下图所示,一般为192.168.1.1二、在VMWare选择编辑->虚拟网络编辑器,打开后进行如下图所示配置1、选择VMnet12、点击NAT设置,然后把NDS修改成第一步查

2015-06-30 11:14:21 6339

原创 实验报告:用协同过滤算法对电影评分,并使用RMSE算出预测误差

利用Pearson correlation作为相似度计算方法计算movie-movie相似度,用协同过滤算法对电影评分,并使用RMSE算出预测误差

2015-06-28 18:28:08 12810 1

原创 安装samba服务器实现Linux mint和Windows共享文件

在Linux普通用户下执行命令:sudo apt-get install samba,安装samba,打开smb.conf配置文件,执行命令:gedit /etc/samba/smb.conf,前提要安装gedit(sudo apt-get install gedit),在最后面加上以下内容:security = share[share]comment = sharepat

2015-06-26 19:34:06 5311

原创 搭建hadoop完全分布式环境详解

所需软件:VMWare11.0、linuxmint-17.1-mate-32bit.iso、jdk-7u7-linux-i586.tar.gz、hadoop-1.0.4.tar.gz一、安装VMWare11.0、linuxmint-17.1-mate-32,按提示安装即可。二、在Linux下把jdk-7u7-linux-i586.tar.gz、hadoop-1.0.4.tar.gz解压到当

2015-06-26 19:18:39 812

myeclipse快捷方式

myeclipse快捷方式让你Javaweb开发更便捷

2014-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除