大数据
在开发大数据项目的过程中出现的的一些问题及解决方式
2401号行者
Write the code, Change the world!
展开
-
spring框架
1.1 Spring概述1)Spring是一个开源框架2)Spring为简化企业级开发而生,使用Spring,JavaBean就可以实现很多以前要靠EJB才能实现的功能。同样的功能, 在EJB中要通过繁琐的配置和复杂的代码才能够实现,而在Spring中却非常的优雅和简洁。3)Spring是一个IOC(DI)和AOP容器框架。4)Spring的优良特性依赖注入:DI——Dependency Injection(加注解加粗样式),**反转控制(IOC)**最经典的实现。void test() {原创 2020-07-28 17:56:25 · 122 阅读 · 0 评论 -
大数据面试题之shell
shell面试题1、shell常用工具awk:文本处理工具sed:利用脚本来处理文本文件,是一款流编辑工具,用来对文本进行过滤和替换操作cut:选取工具,就是将一段数据经过分析,取出我们想要的数据sort:排序工具2、用shell写脚本1)集群启动脚本2)数仓与mysql的导入导出3)数仓层级内部的导入3、企业面试题(linux和shell)百度问题:Linux常用命令参考答案:find、df、tar、ps、top、netstat等。(尽量说一些高级命令)瓜子二手车问题:Lin原创 2020-06-10 13:06:13 · 595 阅读 · 1 评论 -
初学 Spark Streaming,请多指教
Spark Streaming是什么Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作原创 2020-05-26 21:40:00 · 112 阅读 · 1 评论 -
DataFrame与DataSet的互操作
DataFrame转换为DataSet1)创建一个DateFramescala> val df = spark.read.json("examples/src/main/resources/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]2)创建一个样例类scala> case class Person(name: String, age: Long)defined class原创 2020-05-26 21:30:10 · 139 阅读 · 0 评论 -
大数据技术之spark SQL-DataFrame、DataSet、RDD之间的共性与区别
RDD、DataFrame、DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RDD和DataFrame原创 2020-05-26 21:27:15 · 285 阅读 · 0 评论