![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
李海成
这个作者很懒,什么都没留下…
展开
-
SparkSQL入门
解析github上spark的例子在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于sql,使用sqlContext。但是随着DataSet和DataFrame的API逐渐成为标准的API,就需要为他们建立接入点。所以在spark2.0中,引入SparkSession作为DataSet和...原创 2018-09-05 19:28:09 · 275 阅读 · 0 评论 -
spark、hive、MR数据清洗的区别
Q:如题三者都可以进行数据清洗,区别是什么?各自使用场景是什么?A:Spark处理任务比MR快,但是对内存消耗是很大的。多数场景优先考虑hive进行数据清洗,少部分会单独编写MR或者Spark程序进行复杂处理。Spark自然适合实时数据处理,例如公司现在放贷业务需要30s放款或拒绝,spark是最合适的。如果不要求实时处理,只是单纯数据量大,MR则是合适的选择。现在在做...原创 2018-09-04 21:42:00 · 4832 阅读 · 0 评论 -
大数据处理流程
Q:大数据处理的流程是什么,需要对应掌握哪些技能?A:1、数据采集 flume:数据采集与聚合2、数据清洗 对脏数据进行清洗 spark、Hive、MR、或其他 清洗之后可以存放到HDFS(Hive、Spark SQL)3、数据处理 按照业务逻辑处理数据 spark、Hive、MR、或其他 4、处理结果入库...原创 2018-09-04 21:56:35 · 2621 阅读 · 0 评论 -
设置idea本地测试spark的log日志量
需求:运行时log打印太多,以至于找不到有用信息,需要减少log量解决:import org.apache.log4j._object SparkStatFormatJob { Logger.getLogger("org").setLevel(Level.ERROR)}较早版本的spark也可以用val sc = new SparkContext(conf)sc....原创 2018-09-04 23:11:52 · 1478 阅读 · 0 评论 -
flume配置
agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1source:agent1.sources.source1.channels = channel1# 监听目录agent1.sources.source1.type = spooldiragent1.sources.source1.spo...原创 2018-09-18 10:42:47 · 219 阅读 · 0 评论 -
sqoop并发度如果太小会怎么样
问题:sqoop 导入数据报内存溢出解决:-m 100改成1024思考:之前一直以为sqoop -m参数设置的太小只会影响运行时间。结果昨天-m 100的时候一直崩,mentor设置成1024就解决了。...原创 2018-09-28 10:35:29 · 1807 阅读 · 0 评论