Big Data
文章平均质量分 93
OnTheRoad_Kang
比你优秀的还比你努力你有什么资格不去努力
展开
-
python下载某猫data生成的xlsx通过脚本转换成csv上传至hive集群做数据处理
商品信息有关内部信息不便透露,python程序做登录以及商品数据的下载,因为只能下载excel,所以需要转正csv,这里需要做sheet分页读取。#-*- coding: utf-8 -*-import csvimport openpyxl def xlsx_to_csv_data(): data = openpyxl.load_workbook('/home/hadoop/data...原创 2019-07-31 14:52:36 · 305 阅读 · 0 评论 -
Kafka简述
小结:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机...原创 2018-06-26 10:09:42 · 10438 阅读 · 0 评论 -
Azkaban 安装、使用以及遇到的问题
Azkaban 一个批量工作流任务调度器,使用Java语言开发。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。一:Azkaban介绍以及安装(3.X)二:Azkaban的使用三:使用Azkaban时所遇到的问题记录Cannot request memory (Xms 0 kb, ...原创 2018-06-25 09:38:18 · 9833 阅读 · 0 评论 -
Kafka API
小结:创建两个或多个数据文本文件,利用多线程同时发送及接受ProducerMap<String,Object> config = new HashMap<String, Object>(); config.put("bootstrap.servers","Kafka集群所在IP:9092"); config.put("key.seriali...原创 2018-06-24 16:37:59 · 9415 阅读 · 0 评论 -
Kafka(ZK)安装部署
小结: 本篇博客,介绍三种安装Kafka的方式,分别为:单节点单Broker部署、单节点多Broker部署、集群部署(多节点多Broker)。实际生产环境中使用的是第三种方式,以集群的方式来部署Kafka。 Kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中一、Kafka 单节点部署Kafk...原创 2018-06-24 16:22:31 · 13762 阅读 · 1 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠...原创 2018-05-22 09:46:19 · 9583 阅读 · 0 评论 -
Flume数据采集概述、结构、环境搭建
官网:http://flume.apache.org/前言:Hadoop整体开发业务流程1、概述:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力(其设计的原理也是基于将数据流(如日志数据)从各种网站服务器上汇集起...原创 2018-05-08 12:28:11 · 16270 阅读 · 0 评论 -
Spark学习了解CORE、RDD等,以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署
环境准备 :JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)1、Spark概述Apache Spark 是专为大规模数据处理而设计的快递通用的计算引擎Spark是UC Berkeley AMP lab所开源的类似Hadoop MR 的通用并行框架,Spark拥有Hadoop MR所具有的特点,但不同于MR的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spa...原创 2018-05-20 21:43:06 · 10097 阅读 · 0 评论 -
Scala应用场景以及环境部署
官网:http://www.scala-lang.org/scala介绍Scala即可伸缩的语言(Scalable Language),是一种多范式的编程语言,类似于java的编程 ,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala的静态类型有助于避免复杂应用程序中的错误,并且其JVM和JavaScript运行时可让您构建高性能系统,并轻松访问图书馆的巨大生态系统。scala应用场景...原创 2018-05-13 14:34:12 · 12542 阅读 · 0 评论 -
python案例小程序
案例1、python爬取网站Jpg图片案例2、Python批量将ppt转换为pdf案例3、python爬取歌曲评论案例1主要实现一个简单的爬虫,从一个百度贴吧页面下载图片。下载图片的步骤如下:获取网页html文本内容;分析html中图片的html标签特征,用正则解析出所有的图片url链接列表;根据图片的url链接列表将图片下载到本地文件夹中。代码如下:import requestsimport ...原创 2018-04-24 22:20:18 · 19924 阅读 · 3 评论 -
Hadoop生态系统
Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域(甚至可能很窄)。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。(1)MapReduce:古老的分布式计算框架,它的特点是扩展性、容错性好,易于编程,适合 离线数据处理,不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是: http://hadoop.apache.org/(2)Hive:披着SQL...原创 2018-09-24 17:25:57 · 9602 阅读 · 0 评论 -
部署Azkaban多节点分布式模式
简单介绍:Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件:关系数据库(目前仅支持mysql) web管理服务器-AzkabanWebServer 执行服务器-AzkabanExec...原创 2018-11-24 20:09:44 · 15906 阅读 · 0 评论 -
部署Python3用于集群资源脚本调用
备注:在你使用的集群上都要做部署我这里默认bigdata241节点(检查节点上是否有git,没有的话yum下载)CentOS7 默认已经安装了Python2.7.5[root@bigdata241~]# python --versionPython 2.7.5[root@bigdata241 ~]# which python/usr/bin/python[root@bigd...原创 2018-11-24 20:49:41 · 9741 阅读 · 1 评论 -
数据处理之搜索关键词分析
####离线数据处理,hive分析(保留汉子、字母、数字、开头数字去除、过滤垃圾数据)select content,count(1) wordsnumber from (select regexp_replace(split(eventname,'_')[1],' |,|:|/|-|\r|\n|[[^0-9a-zA-Z\\\u4e00-\\\u9fa5]]','') content from...原创 2019-05-27 16:09:47 · 2303 阅读 · 0 评论 -
数据湖
数据湖“数据湖”一词最近成为大数据行业的一个重要术语。数据科学家可以利用它来获得有意义的见解,企业可以使用它来重新定义或改变其运作方式。Lambda架构也正在成为大数据领域中非常杰出的模式之一,因为它不仅有助于从历史数据中获取有用信息,还可以关联实时数据,使业务部门能够做出关键决策。数据湖是一套非常灵活、松散耦合的架构方法,它将大数据处理划分为数据获取层、消息层、数据捏取层、数据存储层、Lam...原创 2019-04-16 14:24:37 · 8120 阅读 · 0 评论 -
大数据流量分析
数据分析工具:FineBI 商业智能工具http://www.finebi.com/数据分析的本质其实是做数据对比分析,没有数据对比,单一的指标统计往往难以发挥数据价值。像我们常见的数据对比分析方法有同比、环比、占比等一系列分析指标,那是不是所有的数据业务场景都可以直接进行套用分析呢?比如我们统计企业2018年1月29日的同比流量,是不是可以直接对比2017年1月29日?表面上看好像2017年1...原创 2019-04-02 09:41:16 · 13337 阅读 · 0 评论 -
Spark Sql 分布式SQL引擎&&Pandas PySpark使用
Spark Sql 分布式SQL引擎Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在这个模式下,用户或应用程序可以直接与Spark SQL交互以运行SQL查询,而无需编写任何代码。运行Thrift JDBC / ODBC服务器对应HiveServer2 于Hive 1.2.1中的。可以使用Spark或Hive附带的beeline脚本测试JDBC服务器启动...原创 2019-02-03 09:57:01 · 11178 阅读 · 1 评论 -
hive压缩&&hdfs合并小文件
hdfs合并小文件hadoop fs -getmerge hdfs文件夹路径 合并本地的文件名如果hdfs误删除文件或者hive误删除文件/user/hadoop/.Trash/Current 这个地址下有文件备份,文件备份保留七天(core配置文件可以设置)hive压缩压缩的好处:(执行查询时会自动解压)可以节约磁盘的空间,基于文本的压缩率可达40%+;压缩可以增加吞吐量和性...原创 2019-01-04 11:18:53 · 10954 阅读 · 0 评论 -
大数据流量分析
参考地址:https://baijiahao.baidu.com/s?id=1591089406130813973&amp;wfr=spider&amp;for=pc数据分析的思路1、基于用户的使用路径,包括用户的操作(点击、返回、退出)、流失(如:注册流程增加一个跳转,用户的流失率)、停留时间(例如用户在某个商品的浏览时间)2、基于产品的节点,包括用户转化率和占比,例如:通过某一个推...原创 2019-01-04 10:52:25 · 10854 阅读 · 0 评论 -
Hive常用性能调优&&常见问题参考&&MR作业调优
设置队列Hive中所有MapReduce作业都提交到队列queue1中,对本次启动的会话有效,下次启动需要重新配置hive --hiveconf mapreduce.job.queuename=queue1设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;控制Hive中map的数量hive.mer...原创 2018-12-29 09:59:43 · 10466 阅读 · 0 评论 -
hive处理小文件(进行map、reduce、压缩、归档优化解决)
背景Hive query将运算好的数据写回hdfs(比如insert into语句),有时候会产生大量的小文件,如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task,耗费大量集群资源,而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后,会起一个conditional task,来判断是否需要合并小文件,如果...原创 2018-12-05 16:28:18 · 11848 阅读 · 0 评论 -
Hadoop高可用、Yarn的资源分配
hadoop概述:Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以...原创 2018-11-24 22:00:38 · 10112 阅读 · 0 评论 -
Sqoop1一般用于线上、测试脚本环境开发
注意:sqoop部署运算节点一般有hive、hbase、azkaban、oozie的节点上还有数据库的节点上Sqoop开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,postgresql等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。底层是通...原创 2018-11-24 21:40:14 · 9741 阅读 · 0 评论 -
Hadoop2.7.5伪分布式源码编译以及使用
环境准备 :JDK1.8Hadoop2.7.5(Hadoop集群是伪分布式)maven 3.5.2protocolBuffer 2.5.0snappy1.1.1注意:如果你的Hadoop编译成功的话,可以支持zlib、snappy、lz4、bzip2、openssl5种本地压缩1、编译步骤:下载源代码安装依赖软件或库编译打包2、安装软件安装JDK1.7+并配置环境变量,前面博客中有,自行查看安装各...原创 2018-04-06 10:22:02 · 10221 阅读 · 0 评论 -
伪分布式集群环境搭建、jdk、hadoop、zk、hbase、hive、mysql
准备工作一台机子(静态ip、映射)hadoop用户下准备:jdk1.8:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhadoop3.0http://hadoop.apache.org/releases.htmlzookeeper3.4.1http://archive.cloud...原创 2018-03-28 22:04:45 · 11641 阅读 · 0 评论 -
Hadoop搭建、环境配置
前期准备:1.安装虚拟机2.安装CentOS 7(注意这里选择最小安装,稍后还要克隆)备注:http://blog.csdn.net/qq_32297447/article/details/79267327这个博客上面有博主做的一个Hadoop分布式框架的搭建部署以及案例运行过程:一:CentOS 7网络配置,克隆子机二:远程传输三:创建Hadoop用户四:配置SSH无密码登录五:安装JDK六:安...原创 2018-01-30 13:07:01 · 10849 阅读 · 0 评论 -
Hadoop资源调度框架YARN
本文概述:1、YARN概述2、YARN架构3、YARN执行流程4、YARN容错5、YARN环境搭建准备工作: 之前博主有发过Hadoop集群环境的搭建以及分布式环境的搭建,可以参考任意博客 http://blog.csdn.net/qq_32297447/article/details/79204625 http://blog.csdn.net/qq_32297447/artic...原创 2018-02-11 17:20:10 · 9782 阅读 · 0 评论 -
CentOS7下安装配置MySQL以及Linux命令使用MYSQL
首先先下载mysql在usr下创建一个mysql文件夹,将你下载好的mysql 5.7rpm包解压后使用xftp远程传输到新创建的mysql文件夹下面授予mysql安装包可执行权限(如果已拥有了可执行权限,此步骤可省略)chmod 755 mysql*执行如下命令依次安装rpm -ivh mysql-community-common-5.7.20-1.el7.x86_64.rpmrpm -ivh ...原创 2018-01-17 11:14:17 · 9942 阅读 · 0 评论 -
什么是分布式系统!以及分布式系统架构的优缺点!
现在的架构很多,各种各样的,如高并发架构、异地多活架构、容器化架构、微服务架构、高可用架构、弹性化架构等,还有和这些架构相关的管理型的技术方法,如 DevOps、应用监控、自动化运维、SOA 服务治理、去 IOE 等等,还有很多。那什么是分布式系统?分布式系统是支持分布式处理的软件系统,是由通信网络互联的多处理机体系结构上执行任务的系统。包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文...原创 2018-01-17 09:26:00 · 72387 阅读 · 1 评论 -
linux文件结构、用户、权限、常用命令、yum
linux文件结构/bin:二进制可执行命令/dev:设备特殊文件/etc:系统管理和配置文件/etc/rc.d:启动的配 置文件和脚本/home:用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示/lib:标准程序设计库,又 叫动态链接共享库,作用类似windows里的.dll文件/sbin:系统管理命令,这 里存放的是系统管理员使用的管理程序...原创 2018-01-29 16:20:48 · 685 阅读 · 0 评论 -
Linux配置JDK的问题,Centos7设置静态IP后ping不通的问题
1.在上一篇博客里面有配置JDK的文章,当时安装完JDK后,检查JDK是否安装成功 java -version,报了一个未找到命令,建议你pwd一下你的安装的JDK地址是否和你配置文件vi /etc/profile这个里面JAVA_HOME的地址是一样的我当时前面就是少了一个root根目录2.新建一个虚拟机的时候,给的都是动态IP,避免以后每次都要查询IP所以要把动态IP改成静态IP,当然我下面也...原创 2018-01-16 16:40:39 · 9762 阅读 · 0 评论 -
Linux下安装Git以及使用Git
1.安装依赖的包 yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker2.下载git源码并解压 Git:https://www.kernel.org/pub/software/scm/git/下载完成之后上传到git文件夹下面然后进行解压,解压命令t...原创 2018-01-24 11:18:59 · 9733 阅读 · 0 评论 -
win、Linux下安装redis以及安装过程中所遇到的问题
基本常识:1、Redis的数据类型: 字符串、列表(lists)、集合(sets)、有序集合(sorts sets)、哈希表(hashs)2、Redis和memcache相比的独特之处: (1)redis可以用来做存储(storge)、而memcache是来做缓存(cache)。这个特点主要是因为其有“持久化”功能 (2)存储的数据有“结构”,对于memcache来说,存储的数据,只有一种类...原创 2018-01-24 09:58:57 · 9689 阅读 · 0 评论 -
Hadoop分布式集群搭建以及案例运行-fs操作
Hadoop分布式集群搭建案例步骤(也可以叫分布式文件系统)一:创建分布式集群环境二:设置静态ip以及主机名与映射关系三:创建用户、配置SSH无密登录四:子机dn操作五:配置主机jdk、hadoop的环境以及hadoop文件六:打包、远程传输至子机七:启动hadoop集群以及运行案例基于hadoop的整体分布式模块交互 1)分布式系统的定义 把数据放到一个服务器集群上面,分为:主控服务器(Mas...原创 2018-02-06 10:18:43 · 11878 阅读 · 0 评论 -
分布式列式数据库HBase
本文概述:1、HBase概述2、HBase特点3、HBase和RDBMS以及HDFS的对比区别4、HBase核心术语5、HBase物理模型6、HBase架构7、HBase容错 8、HBase环境搭建 HBase官网:http://hbase.apache.org/(Apache HBase是一个开源,分布式,版本化的非关系型数据库)HBase概述1)构建在HDFS之上的,分布式、面向列的开源数据库...原创 2018-02-14 15:48:39 · 11990 阅读 · 0 评论 -
分布式协调服务ZooKeeper
本文概述:1、什么是ZooKeeper?2、ZooKeeper概述3、Hadoop生态系统中那些框架使用到了ZooKeeper4、ZooKeeper的架构5、ZooKeeper核心组件6、ZooKeeper的数据结构7、Watch触发器8、哪些框架使用到了ZooKeeper 9、ZooKeeper应用举例 10、节点属性11、Znode的两种类型12、ZooKeeper应用场景13、ZooKeep...原创 2018-02-19 10:06:53 · 10070 阅读 · 0 评论 -
Sqoop介绍、安装部署及MySql与HDFS数据之间的导入导出
本博客的学习目标:了解Sqoop是什么,能做什么以及架构能够进行Sqoop环境部署 MySql<=>HDFS数据的导入导出准备工作:Hadoop伪分布式集群环境:https://blog.csdn.net/qq_32297447/article/details/79734894CentOS7下安装配置Mysql:https://blog.csdn.net/qq_3229744...原创 2018-04-10 10:01:47 · 10189 阅读 · 2 评论 -
Hive下 HQL使用(库、表、区)
准备:Mysql&Hive:Mysql&Hive:基于Hive的伪分布式Hadoop集群环境的配置的博客hive使用(HQL)不用进入hive的客户端,可以使用如下命令来查看$ hive -e 'show databases'数据库操作创建数据库:create database db;如果数据库不存在就创建:create database if not exists db;在指定的...原创 2018-04-08 10:25:47 · 10288 阅读 · 0 评论 -
基于HBase和ZK 高可用集群环境 Shell脚本启动、关闭、重启、查看进程
这是前面博主的总结:基于Hbase&&ZK的Hadoop HA高可用环境搭建将下面四个脚本分别存放在一个单独文件中,并存放在同一目录下,使用如下命令管理 hadoop ha 高可用集群的启动、关闭、重启、查看进程sh hadoop-ha-cluster.sh start # 启动集群sh hadoop-ha-cluster.sh stop # 关闭集群...原创 2018-03-19 09:51:25 · 10350 阅读 · 0 评论 -
Hbase HA 高可用环境搭建
这是前面博主的总结:基于ZK的Hadoop HA 高可用的环境搭建步骤像中间一些无密登录,用户权限等可参考此博客后面会写一个shell脚本去启动、关闭、重启、查看集群的博客一、安装前准备集群主机规划IP编号安装软件主机名进程192.168.18.27node1jdk/hadoop/hbase主Master27NameNode、DFSZKFailoverController、ResourceMana...原创 2018-03-18 20:46:14 · 11233 阅读 · 1 评论