hadoop
diannao720
这个作者很懒,什么都没留下…
展开
-
数据湖是什么
数据湖(Data Lake)是大数据系统中的一个重要概念,其主要特征是:1. 集中存储所有原始数据数据湖试图存放所有可获得的原始数据,包括结构化数据、半结构化数据及非结构化数据。2. 架构灵活可扩展数据湖采用扁平化的分布式文件系统存储数据,这种架构具有很强的扩展性。3. 多种数据格式数据湖能够存储多种格式的数据,包括日志、CSV、JSON、视频等不同格式。4. 统一元数据管理使用元数据对数据源进行注册管理,包括数据定义、标签等关键属性数据。5. 对外暴露查询接口。原创 2023-08-23 18:56:07 · 205 阅读 · 0 评论 -
spark + GlusterFS 大数据轻量级框架
spark + GlusterFS 大数据轻量级框架原创 2016-11-30 15:52:28 · 893 阅读 · 0 评论 -
hdp ambari Confirm Hosts 部署错误问题
hdp ambari Confirm Hosts部署错误问题ERROR: Bootstrap of host c6401.ambari.apache.org fails because previous action finishedwith non-zero exit code (1)> ERROR MESSAGE: Execute of '<bound method Boot原创 2016-12-17 16:42:59 · 13150 阅读 · 0 评论 -
用sqoop将mysql数据导入到hdfs中
将mysql-connector的jar包复制至sqoop解压后的lib目录下测试:sqoop list-databases --connect jdbc:mysql://IP_ADDRESS:3306/ --username root --password 123导入:sqoop import --connect jdbc:mysql://IP_ADDRESS:3原创 2016-10-31 11:09:33 · 406 阅读 · 0 评论 -
spark 提交参数设置
1.num-executors 50~1002.executor-memory 4G~8G num-executors乘以executor-memory,就代表了你的Spark作业申请到的总内存量,这个量是不能超过队列的最大内存量的3.executor-cores 2~4 4.spark.default.parallelism 用于设置每个stage的默认task数量,Spar原创 2017-06-16 11:23:19 · 2326 阅读 · 0 评论 -
RDD/Dataset/DataFrame互转
1.RDD -> Dataset val ds = rdd.toDS()2.RDD -> DataFrame val df = spark.read.json(rdd)3.Dataset -> RDDval rdd = ds.rdd4.Dataset -> DataFrameval df = ds.toDF()5.DataFrame -> RDD转载 2017-06-09 12:08:15 · 3063 阅读 · 0 评论 -
数据自动化整理
理念:自动化数据整理将是通过机器学习方法来实现数据自动化预处理。数据特征工程可能在未来的数据科学中发挥重要作用。 1.洞察数据特征 洞察数据特征目的是最大限度地从原始数据中提取特征以供算法和模型使用。当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:· 特征是否发散:如果一个特原创 2017-06-12 11:24:54 · 2928 阅读 · 0 评论 -
Hadoop生态圈各组件的启动及关闭
1. Hdfs (v 2.7.3)1.1.启动集群sbin/start-dfs.sh注:这个启动脚本是通过ssh对多个节点的namenode、datanode、journalnode以及zkfc进程进行批量启动的。1.2.启动NameNodesbin/hadoop-daemon.sh start namenode1.3.启动DataNode转载 2017-09-22 08:47:44 · 607 阅读 · 0 评论 -
oracle触发器调用jar
1.触发器create or replace trigger write_mysql after inserton AAA_copyBEGINInsertSql("123", "aaa");END2.存储过程create or replace procedure InsertSql(pripid varchar2,name varchar2) as lang原创 2017-12-06 14:22:54 · 775 阅读 · 0 评论 -
严重: Exception loading sessions from persistent storage java.io.EOFException
严重: Exception loading sessions from persistent storagejava.io.EOFException 删除Tomcat里面的work\Catalina\localhost下的项目文件内容即可解决.原因是由于项目测试中class文件或者其它文件更新过频繁。...原创 2018-02-08 14:58:25 · 271 阅读 · 0 评论 -
基于hdp的kafka使用
1.创建topic,进入kafka目录./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test2.验证topic./kafka-topics.sh --list --zookeeper localhost:2181原创 2016-11-14 12:30:33 · 2071 阅读 · 0 评论 -
基于hdp的flume
1.flume配置 flume-test.confproducer.sources = source1producer.sinks = sink1producer.channels = channel1producer.sources.source1.channels = channel1producer.sources.source1.type = syslogud原创 2016-11-14 13:01:03 · 990 阅读 · 0 评论 -
sqoop命令
从其他库导入到和Ive中sqoop import --connect jdbc:mysql://172.16.1.151:3306/nova --direct --username nova --password 123456 --table instances --hive-table instances --hive-import -m 1通过 -m 1 控制并发的 map 数原创 2016-07-14 12:43:25 · 267 阅读 · 0 评论 -
hive 命令
sqoop命令1)列出mysql数据库中的所有数据库sqoop list-databases –connect jdbc:mysql://localhost:3306/ –username root –password 1234562)连接mysql并列出test数据库中的表sqoop list-tables –connect jdbc:mysql://转载 2016-07-14 08:54:45 · 216 阅读 · 0 评论 -
Hadoop 调研笔记
Hadoop 基本介绍hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。什么是分布式存储?这就是后边我们要讲的hadoop核心之一HDFS(Hadoop Distributed File System);什么是分布式计算?这是我们后边要讲的hadoop另外一个重要的核心MapReduce。hadoop的优点一:低成本hadoop本身是运行在普通PC服务器组成的集群中进行转载 2016-06-19 10:15:48 · 393 阅读 · 0 评论 -
ambari 编译
1.phantomjs PHANTOMJS_CDNURL=http://cnpmjs.org/downloads mvn -B clean install package jdeb:jdeb -DskipTests -Dpython.ver="python >= 2.6" -Preplaceurl原创 2016-07-27 21:07:16 · 314 阅读 · 0 评论 -
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 117: ordinal not in range(128)
在liunx的中文版中出现以下错误:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 117: ordinal not in range(128)解决:修改i18n文件,把zh_CN.UTF-8改为en_CN.UTF-8[root@cloud-vm2 ~]# vi /etc/sysconfi原创 2016-07-07 08:47:17 · 504 阅读 · 0 评论 -
CentOS6.5安装Hadoop2.7完整流程
1、环境,3台CentOS6.5,64位,Hadoop2.7.2需要64位Linux,CentOS6.5 Minimal的ISOMaster 192.168.0.182Slave1 192.168.0.183Slave2 192.168.0.1842、SSH免密码登录,因为Hadoop需要通过SSH登录到各个节点进行操作,我用的是root用户,每台服务器都生成公钥,再合并到转载 2016-06-22 10:07:19 · 1525 阅读 · 0 评论 -
centos eclipse创建web 项目
环境:centos6.5 桌面版eclispe:mar2jdk:1.7.79tomcat:apache-tomcat-7.0.54问题1:The APR based Apache Tomcat Native library which allows optimal performance in production environments was not fo原创 2016-08-11 09:40:48 · 388 阅读 · 0 评论 -
oracle创建表空间
oracle创建表空间CREATE TEMPORARY TABLESPACE SJHZ_TEMP TEMPFILE 'E:\APP\ADMINISTRATOR\ORADATA\ORCL\SJHZ_TEMP.DBF' SIZE 32M AUTOEXTEND ON NEXT 32M MAXSIZE UNLIMI原创 2016-10-12 16:45:02 · 286 阅读 · 0 评论 -
spark shell 命令
1.Scala执行命令“spark-shell”可启动Spark Scala Shell;2.python执行命令“pyspark”可启动Spark Python Shell3.R执行命令“sparkR”可以启动Spark R Shell原创 2016-10-11 09:49:56 · 1942 阅读 · 0 评论 -
hadoop 基本操作命令
hadoop fs -mkdir /user/root/test 创建test文件夹hadoop fs -ls 查看目录文件hadoop fs -rm /user/root/words 删除words文件hadoop fs -put /soft/words /user/root/test 上传words到test文件夹hadoop jar hadoop-原创 2016-07-11 13:43:25 · 362 阅读 · 0 评论