Hadoop
文章平均质量分 81
Data_IT_Farmer
BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!
展开
-
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU转载 2021-04-17 15:28:49 · 2272 阅读 · 0 评论 -
spark报错:java.io.IOException: Filesystem closed
1.问题描述往集群提交任务的时候,需要在hdfs上面读取一个资源文件。在读取该资源文件的时候,代码报错出如下:2021-01-29 09:48:29,023 ERROR scheduler.AsyncEventQueue: Listener EventLoggingListener threw an exceptionjava.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSC转载 2021-01-29 10:19:24 · 4367 阅读 · 1 评论 -
格式化namenode时报错No Route to Host from node1/192.168.3.101 to hadoop05:8485 failed on socket timeout ex
格式化namenode时 报错 No Route to Host from node1/192.168.3.101to hadoop:8485 failed on socket timeout exception: java.net.NoRouteToHostException: No route to host解决方案一、报错信息概要在配置hadoop高可用HA集群的时候,在使用had...原创 2020-02-17 12:17:26 · 4093 阅读 · 0 评论 -
hadoop HDFS常用文件操作命令
hadoop HDFS常用文件操作命令命令基本格式:hadoop fs -cmd < args >1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < local file > <...转载 2018-07-27 13:01:03 · 3231 阅读 · 0 评论 -
Spark与Hadoop关系
Spark与Hadoop关系Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生态。0、Spark与Hadoop MapReduce优势如下1)、中间结果输出 MapReduce的计算引擎将中间结果存储在磁盘上,进行存储和...转载 2018-08-09 10:53:58 · 3746 阅读 · 0 评论 -
干货请收好:终于有人把用户画像的流程、方法讲明白了
在日常,我们很习惯的将有相同特点特征的人群进行统一的归纳:比如“高富帅”,“白富美”……也因为有了这样的标签,构成了群体“用户画像”的一部分。 在“大数据”火在了各行各业的今天,“用户画像”也得到了前所未有的重视。对于移动互联网来说,用户画像在产品设计、个性化运营、精准营销等众多环节担任着关键角色。1、什么是用户画像? 用户画像的前提是一系列真实数据之上的目标群体的用户模型,即我们...原创 2019-01-09 17:43:16 · 16960 阅读 · 2 评论 -
Hadoop集群Unhealthy Nodes导致计算能力下降解决方法
随着业务增长,阶段存储越来越多,近来发现Hadoop集群,在运行MapReduce程序的时候,发现任务运行很慢,直到卡在19/01/24 02:28:14 INFO mapreduce.Job: Running job: job_1504781778966_0253,不再往下执行了,经过检查,发现所有的nodes节点都处于unhealthy的状态,使用命令查看node 的状态。[work@h...转载 2019-01-27 22:27:13 · 1475 阅读 · 1 评论 -
hive 和hadoop数据压缩与存储格式选择
hive和hadoop 数据压缩与存储格式选择概述为什么会出现需要对文件进行压缩?在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。压缩在大数据中的使用为什么需要压缩?1) 存储2) 网络/磁盘IO常见压缩方式、压缩比、压缩解压缩时间、是否可切分原文件:1403MSnappy 压缩:701M,压缩...转载 2019-03-12 11:55:53 · 1105 阅读 · 1 评论 -
MapReduce程序实例(python)
问题背景现在有两份数据,file1是校园新闻版块,每一条新闻点击记录;file2是校园新闻版块使用活跃度高的学生记录。用mr统计出某一天的点击记录里,使用ios/android手机的活跃学生的总的点击次数原始数据格式如下:file1.log,校园新闻点击记录,记录了每一次学生点击校园新闻的行为格式:学号\t姓名\t手机端\t新闻id\新闻关键词20170001 xiaoming an...转载 2019-04-02 10:00:12 · 9990 阅读 · 4 评论 -
spark用正则表达式处理需要将多个输入文件路径作为输入的问题
一、spark用正则表达式处理需要将多个输入文件路径作为输入的问题1、spark需要处理过去半个月的数据,每天的数据再hdfs上存到一个文件中,将近15个输入目录,此时可以采用如下正则匹配的写法,将代码简化:import datetimedef produce_half_month(thedate): current_day = thedate # current_da...转载 2019-05-19 20:48:40 · 2119 阅读 · 0 评论 -
【超级有用】大数据的压缩格式
为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】$ hadoop version$ hadoop checknative一、在解答上述问题以前,我们先...转载 2019-07-18 10:30:59 · 1014 阅读 · 1 评论 -
查看进程状态信息命令 jps - (Java Virtual Machine Process Status Tool) 命令介绍
jps 名称: jps - Java Virtual Machine Process Status Tool 命令介绍jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。jps主要用来输出JVM中运行的进...转载 2018-07-18 14:28:10 · 1245 阅读 · 0 评论 -
spark读取hdfs文件的路径使用正则表达式
spark读取hdfs文件的路径使用正则表达式例子一、# -*- coding:utf-8 -*-from pyspark import SparkConffrom pyspark import SparkContextimport osif __name__ == '__main__': os.environ["SPARK_HOME"] = "/Users/a6/App...原创 2018-07-17 13:31:49 · 7342 阅读 · 0 评论 -
Spark中加载本地(或者hdfs)文件以及 spark使用SparkContext实例的textFile读取多个文件夹(嵌套)下的多个数据文件
Spark中加载本地(或者hdfs)文件以及 spark使用SparkContext实例的textFile读取多个文件夹(嵌套)下的多个数据文件textFile的参数是一个path,这个path可以是:1. 一个文件路径,这时候只装载指定的文件3. 通过通配符的形式加载多个文件或者加载多个目录下面的所有文件转载 2017-11-08 16:45:55 · 40231 阅读 · 1 评论 -
Python利用hadoop Streaming编写的Map-Reduce程序命令运行和本地调试运行
Python利用hadoop Streaming编写的Map-Reduce程序命令运行和本地调试运行Hadoop本身是用Java开发的,程序也需要用Java编写,但是通过Hadoop Streaming,可以使 用任意语言(python、ruby、C++等)来编写程序,让Hadoop运行。 Hadoop提供了MapReduce的API,并允许使用非java的其他语言来写自己的map和reduce函数。而Streaming使用Unix标准流作为Hadoop和应用程序之间的接口,所以允许我们可以使用任转载 2017-10-24 14:48:32 · 2454 阅读 · 0 评论 -
Hadoop streaming:使用原生python编写MapReduce来统计文本文件中所有单词出现的频率功能
Python编写的MapReduce程序——统计文本文件中所有单词出现的频率功能。原创 2020-09-18 17:04:41 · 3224 阅读 · 1 评论 -
创建hive表和使用Load data指令导入数据的注意事项
创建hive表和使用Load data指令导入数据的注意事项(一)创建hive数据库和表1.1 类似于MySql创建命令,创建数据库和表,并指定它在hdfs上的存储数据的目录'/hive_hdfs_local_data‘hive> CREATE DATABASE yyz_workdb;hive> create external table test_user( > us...原创 2017-11-04 11:56:58 · 71961 阅读 · 1 评论 -
hadoop Shell命令详解
hadoop Shell命令详解转载 2017-11-04 17:47:24 · 290 阅读 · 0 评论 -
Hadoop Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
关于一个经典Hadoop 错误信息的解决的方法错误信息如下:17/12/08 10:08:31 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableException in thread "main" java.lang.OutOfMemoryError: GC overhead limit exc原创 2017-12-08 15:11:01 · 1803 阅读 · 0 评论 -
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子)
Hadoop MapReduce执行过程详解(带hadoop例子)1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.MR中job参数及设置map和reduce的个数6.实例,如何计算没见最高气温?1、分析MapReduce执行过程 MapReduce运行的转载 2018-02-03 13:51:26 · 8920 阅读 · 1 评论 -
Apache Spark探秘:三种分布式部署方式比较
Apache Spark探秘:三种分布式部署方式比较目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这...转载 2018-02-08 21:00:22 · 528 阅读 · 0 评论 -
Hadoop Archives Guide(hdfs文件归档介绍和例子)
Hadoop Archives Guide(hdfs文件归档介绍和例子)一、概括介绍:1)、简介英文:Hadoop archives are special format archives. A Hadoop archive maps to a file system directory. A Hadoop archive always has a *.har extension. A...翻译 2018-01-25 13:44:51 · 7486 阅读 · 0 评论 -
安装完Hadoop之后,命令行输入hadoop却找不到命令的解决方法
安装完Hadoop之后,命令行输入hadoop却找不到命令的解决方法一、大多数原因是没有配置环境变量解决方法 1. cd /etc/profile 2. 把这三条加到proflie文件的最后export JAVA_HOME=XXXX(在安装了jdk的前提下,echo $JAVA_HOME可以查看得到)export HADOOP_HOME=XXX(hadoop的安装路径)export PATH=.:...原创 2018-06-14 11:03:39 · 33206 阅读 · 0 评论 -
pyspark-hdfs数据操作函数介绍
一、SparkContext API1、读取hdfs数据转成numpy#!/usr/bin/python# -*- coding: UTF-8 -*-from pyspark import SparkContext,SparkConfimport numpy as npimport pickledirPath='hdfs://xxx/user/root/data_16/11/lab...转载 2018-06-20 00:01:28 · 2255 阅读 · 0 评论 -
python是通过thrift来操作hbase的示例程序
python是通过thrift来操作hbase的示例程序:在安装hadoop,zookeeper,hbase,thrift,python thrift之后,然后逐一进行关联服务启动,如下顺序,之后python便可借助thrift操作hbase了,代码和运行结果如下。原创 2017-10-10 13:43:15 · 1592 阅读 · 0 评论