2018年12月_爱吃西蓝花的老张

12月 11月 10月 09月 08月 07月 05月 03月 02月 01月

原创 SparkStreaming编程优化经验

1.代码精简、逻辑清晰代码的精简往往能带来很大的提升，这一点甚至比外部的调优效果更好。比如去除一些不必要的filter、选择合适的算子2.避免shuffle所谓shuffle，就是在网络间传输数据。Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，简单来说，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合或join等操作。比如red...

2018-12-11 11:29:21 720

原创 Spark 引用ProtoBuffer报错：Unable to find proto buffer class

使用 yarn 的spark-submit提交时，加入超序列化参数：--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \另，附：Spark-submit提交作业的shell版本模板。一个好的shell脚本，不仅让人看起来赏心悦目，更易于查找问题，方便交接#!/bin/sh>>descr...

2018-12-02 11:51:27 966

原创 Spark异常：task cannont be Serializable

原因：在入库操作中，在 map\foreachePartition 等等分布式环境中new了连接对象（可以是redis、mysql等等），而此连接对象只能在本机起作用他们无法被序列化，所以在别的机器中找不到连接对象类似下例代码，就会抛出该错：val imClient = MistoreClientFactory.getMistoreClient(cateLog)rsRdd .map(w...

2018-12-02 08:08:38 471 3

zjf-20200418-train-data-origin.csv

zjf-20200418-train-data-origin.csv，训练测试数据，共100M，27w行，包含5列特征值。选自某电商网站托敏后的原始数据

2020-04-20

fast_solution_v3.py

ftrl代码实现，kaggle转载，侵权联系删除

2020-04-15

kaggle_EDA_model_ensemble.ipynb

kaggle自行车大赛特征处理解析。

2020-04-11

地址请求工具postman for macOsx

Mac平台下的地址请求工具，支持post方式和get方式。直接下载打开安装。

2019-01-10

Java spring boot 接口工程

基于java以及spring boot构建的接口工程，实现高效的线上部署及restful形式访问

2018-02-26

metrics-core-2.2.0.jar

metrics-core-2.2.0.jar, 解决java连hbase的java.lang.ClassNotFoundException: com.yammer.metrics.core.Gauge

2017-09-21

netty-all-4.0.23.Final.jar

netty-all-4.0.23.Final.jar netty-all-4.0.23.Final.jar netty-all-4.0.23.Final.jar netty-all-4.0.23.Final.jar

2017-09-21

SecureCrt x64

SecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrtSecureCrt

2017-09-14