执行pyspark 的programma片段结果说明
使用RDD的相关运算算子,实现亿级数据用户、设备等相关常用信息。
本以为有zeppelin设置的1000行配置限制与10240000kb没有什么问题。
但因为某步草走,导致结果在ui中显示超过1000行,且致使notebook的note.json超大,超过10MB。
复现问题
后来新建notebook,复现同样问题,note.json瞬间从几十kb 到十几MB,①是结果太大,②异常信息太大,导致note.json中msg中的“data”的value特别特别大。(测试过json只有几百行)
解决尝试 (银行业,太严格只能zeppelin、ambari页面操作)
①一开始只知道hdfs上有note.json,把该json 导到本地文件,在zeppelin的shell环境中尝试sed -i ‘s/[ ]“data”: "."/ “data”:""’/ 替换,再删除hdfs上 该note.json,再把修改的上传上去。
(hdfs 文件无法覆盖,只有追加;)
替换后文件恢复到正常大小。(“data”,对应的就是要print到页面的信息)
结果没有效果,后追踪原因:zeppelin有本地的notebook/AE8CDF1/note.json 这样的文件,与hdfs是对应缓存的,改hdfs没有用。
②尝试ambari中 修改zepelin env 中 msg.li