大数据开发
RayBreslin
大数据开发、设计企业应用
展开
-
(转)史上最全的大数据分析和制作工具
【转载原文:很强,很全!https://blog.csdn.net/a911711054/article/details/80185354】展开数据可视化工具说到数据呈现,必然少不了可视化,分分钟将你的数据以更直观更闪亮的形式展现在用户面前。Tableau:http://www.tableau.com/zh-cnInfogr.am:https://infogr.am/Ease...转载 2019-12-12 09:54:03 · 487 阅读 · 0 评论 -
(转)GFS/MAPREDUCE/BIGTABLE中文版论文
【转载原文:http://blog.bizcloudsoft.com/?p=292】Google的著名的三篇大数据的论文,分别讲述GFS、MapReduce、BigTable,取自网上,排版整理完成,以供参考。下载:Google File System中文版Google MapReduce中文版Google Bigtable中文版...转载 2019-11-25 17:48:27 · 303 阅读 · 0 评论 -
大数据常用网址总结
1.官网文档(1)apachehttp://hadoop.apache.org/http://spark.apache.org/http://flume.apache.org/http://kafka.apache.org/(2)clouderahttp://archive.cloudera.com/cdh5/cdh/52.下载(1)apachehttp:/...原创 2018-09-17 07:19:40 · 887 阅读 · 1 评论 -
kafka(三):flume和kafka集成实例
1.环境flume1.6.0+kafka_2.10-0.8.2.1+zookeeper-3.4.52.flume配置(1)flume从bigdata.ibeifeng.com:44444端口接受信息,传送给kafka配置文件:avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-ka...原创 2018-09-17 07:35:07 · 637 阅读 · 0 评论 -
Error:spark streaming 的textFileStream读取不了数据 ,即:在目录中创建文件,但是在streaming程序中是没有读取对应数据
1.现象SparkStreaming从本地文件夹"..\WorkspaceforMyeclipse\scalaProjectMaven\datas"中读取数据,并进行DStream/RDD处理,但是,在datas中创建文件并且写入文字,程序都无法读取。2.原因:SparkStreaming需要读取流式的数据,而不能直接从datas文件夹中创建。3.解决:创建文件 t...原创 2018-09-18 20:25:27 · 2833 阅读 · 0 评论 -
flume和kafka合成报错ERROR - org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleS
0.环境:flume1.6.0和kafka_2.10-0.8.2.11.问题描述:flume和kafka集成,flume输出到kafka:(1)flume配置文件:agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=kafka-sink#define sourceagent1...原创 2018-09-23 21:41:41 · 4838 阅读 · 3 评论 -
kafka创建Topic的时候报错:KeeperErrorCode = NoNode for /brokers/ids
1.报错原因:创建命令bin/kafka-topics.sh --create --zookeeper bigdata.ibeifeng.com:2181/kafka02 --replication-factor 1 --partitions 1 --topic hello_topic和server.properties中zookeeper设定的目录不一致zookeeper.c...原创 2018-09-14 07:37:25 · 12516 阅读 · 2 评论 -
IDEA报错:Error:(13, 14) HBaseUtils is already defined as object HBaseUtils public class HBaseUtils {
1.问题:Idea编译java代码报错:Error:(13, 14) HBaseUtils is already defined as object HBaseUtilspublic class HBaseUtils { 2.原因:自己将src/main下新建一个java目录,然后设置为sources。idea无法编码单个确定的目录。 3.解决,去除这个source...原创 2018-09-25 07:45:22 · 566 阅读 · 0 评论 -
flume使用pull方式整合Streaming问题: Unable to load sink type: org.apache.spark.streaming.flume.sink.SparkSin
参考官网:http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html1.现象flume输入命令后bin/flume-ng agent \--name simple-agent \--conf conf \--conf-file conf/flume_pull_streaming.conf \-D...原创 2018-09-20 00:18:57 · 2053 阅读 · 0 评论 -
Flume和Kafka集成错误:Error reading field 'throttle_time_ms'
Flume和Kafka集成错误1.问题描述:flume向kafka写入数据的时候报错:2018-09-15 00:10:08,502 (kafka-producer-network-thread | producer-1) [ERROR - org.apache.kafka.clients.producer.internals.Sender.run(Sender.java:130)]...原创 2018-09-15 00:26:41 · 773 阅读 · 0 评论 -
flume使用pull方式整合Streaming问题:Received an error batch - no events were received from channel!
1.现象flume使用pull方式整合Streaming,参考官网http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html,配置好flume以及编写好streaming 程序后,发现使用telnet发送数据,报错:2018-09-20 06:30:33,384 (Spark Sink Processor Thr...原创 2018-09-20 06:35:42 · 630 阅读 · 0 评论 -
Spark2.1.X源码编译总结(参考官网)
一、环境参考:http://spark.apache.org/docs/2.1.0/building-spark.html1.硬件:虚拟机内存4G以上。(吐血记忆,因为这个吃亏无法编译成功!)2.软件:(1)Java1.8:官网要求1.7+查看java版本,确认1.8。(如果不是则删除系统自带的java,重新安装java,自己没有检查,结果发现java是1.5,导致编译失败...原创 2018-09-30 21:25:01 · 152 阅读 · 0 评论 -
大数据平台常用组件端口号(转载)
版权声明: https://blog.csdn.net/JENREY/article/details/80719552 常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 ...转载 2018-10-01 00:04:51 · 277 阅读 · 0 评论 -
SparkSQL(13):shell命令中spark-shell、spark-sql以及thriftserver&beeline访问hive表
一、spark-shell1.把hive的hive-site.xml复制到spark的conf下面2.开启spark-shellbin/spark-shell --master local[2] --jars /opt/datas/mysql-connector-java-5.1.27-bin.jar3.运行测试语句spark.sql("select * from imoo...原创 2018-10-01 14:35:06 · 1676 阅读 · 0 评论 -
SparkSQL(14):jdbc访问hive表
一、目的:使用jdbc访问hive表二、操作:1.前提开启thriftserversbin/start-thriftserver.sh \--master local[2] \--jars /opt/datas/mysql-connector-java-5.1.27-bin.jar \--hiveconf hive.server2.thrift.port=14000...原创 2018-10-01 14:39:29 · 2933 阅读 · 0 评论 -
SparkSQL(12):SQLContext/HiveContext/SparkSession使用和区别
一、SQLContext1.适用spark版本:spark1.x2.添加依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2....原创 2018-10-01 14:55:27 · 5602 阅读 · 0 评论 -
SparkSQL(10)DataFrame基本API的操作-1-(DSL)
一、DataFrame和RDD对比1.相同点:二者都是分布式存储数据集,适用于大数据处理。2.不同点:(1)RDD不知道内部结构(2)DataFrame有详细的内部结构,类似数据表二、DataFrame基本数据源和API操作1.DataFrame数据来源参考官网:http://spark.apache.org/docs/2.1.0/sql-programming...原创 2018-10-01 16:42:40 · 829 阅读 · 0 评论 -
spark submit提交任务报错Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/spark/stream
1.问题描述提交spark任务:bin/spark-submit --master local[2] \--class _0924MoocProject.ImoocStatStreamingApp_product \/opt/datas/project/scalaProjectMaven.jar \bigdata.ibeifeng.com:2181/kafka08 test str...原创 2018-09-25 23:54:55 · 9240 阅读 · 0 评论 -
spark 提交任务error:java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/client/HBaseAdmin
1.spark提交任务bin/spark-submit --master local[2] \--class _0924MoocProject.ImoocStatStreamingApp_product \--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 \/opt/datas/project/scalaP...原创 2018-09-26 00:11:34 · 5287 阅读 · 0 评论 -
Idea编译报错:SLF4J: Class path contains multiple SLF4J bindings.
1.问题描述idea编译java报错:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See...原创 2018-09-26 08:35:31 · 4776 阅读 · 2 评论 -
RDD转换为DataFrame的时候报错:java.lang.NumberFormatException: For input string: ““
1.问题描述RDD转换为DataFrame,运行命令: val spark=SparkSession.builder().appName("RDD2DataFrameSpark").master("local[2]").getOrCreate() //RDD==>DataFrame val rdd= spark.sparkContext.textFile("...原创 2018-10-01 18:59:39 · 3341 阅读 · 0 评论 -
SparkSQL(9)RDD2DataFrame
一、两种方式【参考官网:http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#programmatically-specifying-the-schema】Inferring the Schema Using Reflection(反射方式) Programmatically Specifying the Schema...原创 2018-10-01 19:57:28 · 214 阅读 · 0 评论 -
Linux常用命令总结(四):文件权限管理
一、权限分类 r代表读,w代表写,x代表执行,-没有这个权限二、修改文件(夹)权限1.命令:chmod u-x package/注释:- u(user)代表所有者- g(group)代表所属组- o(other)代表其他人- a(all)代表所有用户- 减号(-)是去掉权限- 加好(+)增加权限2.使用条件chmod命令只有root用户或文件的所有者...原创 2018-10-02 00:10:09 · 173 阅读 · 0 评论 -
在sparkSQL中无法找到Hive表apache.spark.sql.catalyst.analysis.NoSuchTableException:Table or view ‘emp‘ not f
1.问题描述使用Scala编程,通过SparkSession连接hive中的表,但是没有找到,报错:Exception in thread "main" org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException:Table or view 'emp' not found in database 'default';...原创 2018-10-02 10:30:06 · 5660 阅读 · 5 评论 -
SparkSQL(6):外部数据源
一、总括1.参考官网:http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources2.SparkSQL支持多种数据源,这个部分主要讲了使用Spark加载和保存数据源。然后,讲解内置数据源的特定选项。3.数据源分类:(1)parquet数据(2)hive表(3)jdbc连接其他数据库(...原创 2018-10-02 10:59:58 · 483 阅读 · 3 评论 -
SparkStreaming(12):高级数据源kafka Receiver方式(生产)
1.准备环境(1)启动zk bin/zkServer.sh start(2)启动kafka bin/kafka-server-start.sh -daemon config/server.properties(3)创建topicbin/kafka-topics.sh --create --topic kafka_streaming_topic --zo...原创 2018-10-11 18:48:16 · 211 阅读 · 0 评论 -
SparkStreaming(13):高级数据源kafka Direct方式(生产)
【Direct方式,直接从kafka的broker读取数据,而Receiver方式,从zk获得偏移量信息,性能要差一些!】1.测试环境(1)启动zkbin/zkServer.sh start(2) 启动kafkabin/kafka-server-start.sh -daemon config/server.properties(3) 创建topicbin/kaf...原创 2018-10-11 18:59:37 · 310 阅读 · 0 评论 -
kafka(三):核心概念以及框架
一、核心概念1.Message:数据.传递的数据对象,主要由四部分构成:offset(偏移量)、key、value、timestamp(插入时间)。2.Broker:一般情况一台服务器一个broker,但是可以部署多个,反应到具体的进程就是Kafka进程3.Topic:是Kafka中一组消息的一个整体概念,Produce将消息写入到对应的Topic,Consumer从对应的...原创 2018-10-17 21:22:10 · 313 阅读 · 0 评论 -
kafka(四):server.properties关键信息
server.properties的其他关键配置:!!!一、必须配置1.broker.id=0 ##给定broker的id的值,在一个kafka集群中该参数必须唯一 2.port=9092 ##监听的端口号,默认9092,需要保证改端口没有被使用3.host.name=bigdata-01 ##监听的主机名,默认是localhost,需要更改为hostname3.lo...原创 2018-10-17 21:34:25 · 551 阅读 · 0 评论 -
kafka(五):Topic的增删改查操作
1.创建Topicbin/kafka-topics.sh --create --topic beifeng1 --zookeeper bigdata.ibeifeng.com:2181/kafka08 --partitions 5 --replication-factor 2其中:(1)--replication-factor:副本数目默认不超过3,太多影响网络磁盘io性能(副本数...原创 2018-10-17 23:42:20 · 2199 阅读 · 0 评论 -
flume实例(一):监控目录
1.实现功能: 监控目录,一旦目录内增加数据,即传递到hdfs上。2.配置文件dir-sink-hdfs.properties#a1表示代理名称a1.sources=s1a1.sinks=k1a1.channels=c1#配置source1 监控目录是否有文件数据生成a1.sources.s1.type=spooldira1.sources.s1.spoolDi...原创 2018-10-08 18:36:21 · 1945 阅读 · 0 评论 -
flume实例(二):监控服务器日志
1.实现功能:监控日志增加,并且将日志信息存储到hdfs上2.flume和hdfs集成将hadoop对应jar包放到flume的lib目录下htrace-core-3.1.0-incubating.jarhadoop-hdfs-2.7.3.jarhadoop-common-2.7.3.jarhadoop-auth-2.7.3.jarcommons-io-2.4.jarc...原创 2018-10-08 18:39:21 · 1271 阅读 · 0 评论 -
flume实例(三):扇入
1.实现功能:扇入:flume可以实现从数以百计的Web servers中收集信息,然后将日志信息传送到十几个agent服务器,最后写到hdfs上。本文实例采用的就是实现这个扇入功能:flume1:收集4666端口信息,并输送到Avro Sinkflume2:监控日志信息,并输送到Avro Sinkflume3:收集flume1 Avro Sink和flume2 Avro Sink...原创 2018-10-08 18:51:34 · 955 阅读 · 0 评论 -
kafka(一):单节点broker的部署和使用
一、前提准备1.安装zookeeper2.配置zookeepervi conf/zoo.cfg修改存储目录dataDir=/opt/modules/zookeeper3.启动zkbin/zkServer.sh start二、kafka配置和启动1.broker配置 properties文件:$KAFKA_HOME/config/server.pr...原创 2018-10-08 21:03:07 · 1238 阅读 · 2 评论 -
HDFS 常用shell命令总结:2.+版本hadoop
1.内容描述: HDFS常用的shell命令,本次总结针对2.0+以上的版本的Hadoop。 2.命令:(1)查看目录bin/hdfs dfs -ls -R /(2)创建目录(创建多层)bin/hdfs dfs -mkdir -p /user/hive/warehouse(3)付给权限bin/hdfs dfs -chmod g+w /user/h...原创 2018-09-29 23:57:15 · 788 阅读 · 0 评论 -
kafka(二):单节点多broker的部署和使用,以及监控
一、前提准备工作包括zk安装配置,以及kafka安装配置,请参考:kafka(一):单节点broker的部署和使用二、多broker配置1.配置server.properties,server1.properties,server2.properties三个文件的关键信息:#1.server.propertiesbroker.id=0# The port the socket...原创 2018-10-08 21:18:35 · 1675 阅读 · 0 评论 -
SparkStreaming(1):提交wordcount功能
一、目的:使用wordcount官方自带案例,熟悉spark-submit和spark-shell两种提交spark应用程序方法。二、操作目的1.使用spark-submit提交(1)启动hdfs(2)spark根目录下执行bin/spark-submit --master local[2] \--class org.apache.spark.examples.stre...原创 2018-10-08 22:39:06 · 372 阅读 · 0 评论 -
SparkStreaming(2):粗粒度和细粒度总结
一、粗粒度1.工作原理:(1)Spark Streaming接收到实时数据流(data stream)(2)Spark Streaming把数据按照指定的时间段切成一片片小的数据块(小批次)(3)然后Spark Streaming把小的数据块传给Spark Engine处理(4)Spark Engine处理后,输出处理后的数据(processed result) 二、细...原创 2018-10-08 23:01:29 · 1094 阅读 · 0 评论 -
SparkStreaming(3):构建StreamingContext
1.参考官网http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#initializing-streamingcontext 2.构建streamingcontext方法(1)使用SparkConf构建import org.apache.spark._import org.apache.spa...原创 2018-10-08 23:25:12 · 273 阅读 · 0 评论 -
SparkStreaming(4):Discretized Streams (DStreams)理解
参考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams1.概念(1)DStreams是一个连续的数据流,可以通过两种方式产生:数据源来的输入数据流,或者处理后的数据源的数据。(2)DStreams是一系列的RDD构成的。其中RDD包含了每个i...翻译 2018-10-09 00:01:27 · 427 阅读 · 0 评论