Spark系列
文章平均质量分 66
xsimah
再见少年拉满弓,不惧岁月不惧风。
1.科技先进工作者、省级评审专家库、参与4篇专利、杭州E类人才;
2.参与管理6+人数据分析与挖掘(AI)团队;
3.多次带领团队荣获数据应用模型创新大赛单位一等奖、作品一等奖、个人一等奖;
展开
-
impala使用round函数保留小数失效
impala使用round函数保留小数失真原创 2024-04-05 21:00:43 · 304 阅读 · 0 评论 -
jupyter pyspark 开发环境搭建(在线、离线)
应用场景在Jupter中,使用 Python语言进行数据分析是一种潮流/趋势。如何在 Jupyter 中引入 Spark ,从而进行大数据清洗、挖掘等是值得研究的问题。技术方案的选择有很多,然由于多方面原因终究要探索出适合自己的~实现方案方案 1 利用 Apache Toree 在Jupyter 中引入 Spark, 从而建立Scala,PySpark,SparkR...原创 2018-04-07 18:28:51 · 4789 阅读 · 2 评论 -
org.apache.spark.sql.AnalysisException: cannot resolve '`id`' given input columns
场景描述Spark 获取MySQL数据并持久化入 json、parquet文件过程记录分析解析异常 具体原因待分析Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve '`id`' given input columns: [id, name, age, sex];;'...原创 2018-04-14 22:59:47 · 28644 阅读 · 1 评论 -
RDD Persistence(spark)
RDD Persistence StorageLevel describe NONE RDD不做持久化 DISK_ONLY RDD分区仅持久化在磁盘 DISK_ONLY_2 _2,即将每个分区备份到2个集群节点,其他同上 MEMORY_ONLY 默认持久化策略. 将RDD作为JAVA对象反序列化后持久化到JVM虚拟机内存中,如果内存...原创 2018-04-03 23:20:00 · 201 阅读 · 1 评论 -
jupyter spark环境配置(在线、离线均可实现)
应用场景为了能在jupyter中开发spark程序,博文记录在 jupyter 中配置 spark 开发环境过程。参考很多博客无法有效搭建 jupyter 中spark开发环境!必备组件spark 下载 spark-2.3.0-bin-hadoop2.7.tgzApache Toree Apache Toree has one main goal: provide...原创 2018-04-07 00:37:49 · 3829 阅读 · 3 评论