![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Deng_huakai
花开自会落
展开
-
RDD算子实现文件统计
要求给出一个TXT文件,文件包含uri下面对应的访问量。求每个域名下面访问量最大的uri程序package www.ruozedata.bigdata.homeworkimport org.apache.spark.{SparkConf, SparkContext}object URIApp { def main(args: Array[String]): Unit = { ...原创 2018-12-20 21:44:51 · 327 阅读 · 0 评论 -
spark on yarn-消除警告
spark on yarnlog-yarn.sh脚本export HADOOP_ROOT_LOGGER=DEBUG,consoleexport HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www....原创 2018-12-28 01:18:17 · 389 阅读 · 0 评论 -
spark on yarn
shell脚本log-yarn.sh如下:export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www.ruozedata.bigdata.SparkCore02.LocalServeApp \...原创 2018-12-24 22:38:56 · 314 阅读 · 0 评论 -
spark on yarn cluster查看日志
spark on yarn cluster查看日志[hadoop@hadoop001 shell]$ yarn logs -applicationId application_1420997455428_000515/01/12 04:34:51 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032/tmp/l...原创 2018-12-25 18:21:23 · 2165 阅读 · 0 评论 -
Windows10-idea通过spark连接hive
步骤分析idea如果想通过spark连接hive,首先pom文件中需要添加hive,除此之外必须要把hive-site.xml放到idea的resources下面。hive-site.xml里面是配置的hive的元数据库地址,hdfs-site.xml、core-cite.xml可以选择是否放进去。Windows系统操作hadoop肯定会出现一个警告。找不到winutils.exe。这个警告一般...原创 2019-01-01 13:02:33 · 3518 阅读 · 0 评论 -
计数器的使用及脏数据的输出
输入文件内容如下:https://segmentfault.com/q/1010000000318379 [2018-1202:00] 50http://ruozedata.com/teacher.html 201802:00 65http://ruozedata.com/student.html 201802:00 56https://www.cnblogs.com/MOBIN/p/53...原创 2019-01-02 10:56:52 · 279 阅读 · 0 评论 -
RDD的五大特性
RDD(Resilient Distributed Dataset)RDD是一个抽象类,它代表的是对不可变的分区元素的集合进行并行操作。A list of partitions一个RDD由几个分区构成。它是一个可分区的集合,那么它的好处就体现在,对于之前的普通不能进行分区的集合,数据就只能在一个节点上进行处理,而对于RDD来说,对集合进行分区,那么就可以把集合里面的元素存储在不同机器上处理。...原创 2019-02-02 23:37:56 · 302 阅读 · 0 评论 -
spark自定义注册函数
自定义函数的原因因为在一些情况下,sparksql里面自带的一些函数可能满足不了需求,而一些操作可能又需要多次去执行,比如对矿井下测出来的一些数据需要进行分离解析,得出具体的字段来存放到表里,那么如果频繁的使用spark的API进行多次的操作,代码也会很繁琐,这时候就可以考虑通过自定义注册函数,来解析数据,下面是简单的代码操作。 import org.apache.spark.sql.type...原创 2019-03-22 14:04:40 · 1504 阅读 · 0 评论