大数据
文章平均质量分 59
ginger__
这个作者很懒,什么都没留下…
展开
-
在进行hbase插值时出现错误Exception in thread "main" org.apache.spark.SparkException: Task not serializable
这是因为addRow方法中插入的值都经过getBytes方法转换成数据流了,这就需要进行序列化操作因此需要包含addRow方法的类去继承或实现类Serializable正确代码:import java.io.IOExceptionimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client._import org...原创 2018-03-28 15:46:40 · 2109 阅读 · 0 评论 -
spark scala遇到一个只能用foreach不能用map的问题
文件中数据格式:1^A1002^A1522718982.606^time_local=03/Apr/2018:09:29:42 +0800&http_referer=-&http_user_agent=Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325...原创 2018-04-04 11:03:27 · 1202 阅读 · 1 评论 -
spark二次排序到多次排序
数据示例:1 5 6 91 5 6 71 5 6 82 4 7 53 6 3 31 5 3 31 5 2 42 4 3 7实现需求:先按第一列排序,若第一列相同按照第二列排序,依次类推scals实现:class SeveralSortKey(val arr:Array[String]) extends Ordered[SeveralSortKey] with Serializable{ //重...原创 2018-04-24 13:35:09 · 1166 阅读 · 0 评论 -
maven+scala项目加载.properties资源文件
val absoPath = Thread.currentThread().getContextClassLoader().getResource(“资源文件路径test resources root下”).getPathvar fileStream = new FileInputStream(absoPath)properties.load(fileStream)注:必须在pom.xml配置文件...原创 2018-05-02 15:10:35 · 1606 阅读 · 1 评论