![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
功夫猫熊yeah
吃瓜群众
展开
-
spark ml 回归模型之共享单车模型
数据来源下载地址原创 2021-08-26 08:12:27 · 575 阅读 · 0 评论 -
spark-ml的pom文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav原创 2021-08-26 08:10:51 · 518 阅读 · 0 评论 -
spark trouble-shooting之Reference ‘temp‘ is ambiguous, could be
查看dataframe的可以发现temp列有两列,所以在运行时候报如下错误:这里是引用Caused by: org.apache.spark.sql.AnalysisException: Reference ‘temp’ is ambiguous, could be: temp, temp.;at org.apache.spark.sql.catalyst.expressions.package$AttributeSeq.resolve(package.scala:259)at org.apa原创 2021-08-26 08:01:18 · 1199 阅读 · 1 评论 -
spark ml之推荐系统实现
//查看下给定列个值得一个基本信息,例如数量 平均值 最大值 最小值 中位数这些基本描述 rating.describe("userId","movieId","rating").show }}查看数据的平均值 中位数 最大值,最小值,对数据有个最基本的认识将数据分文三部分:训练集 验证集 测试集 val splits = rating.randomSplit(Array(0.6,0.2,0.2),seed=1234)// 1234为随机种子,为了保证每次的验证结果相同...原创 2021-08-23 10:05:47 · 461 阅读 · 0 评论 -
spark-ml 之决策树-性别预测
数据如下:male.txt[174.0, 65.6], [175.3, 71.8], [193.5, 80.7], [186.5, 72.6], [187.2, 78.8], [181.5, 74.8], [184.0, 86.4], [184.5, 78.4], [175.0, 62.0], [184.0, 81.6], [180.0, 76.6], [177.8, 83.6], [192.0, 90.0], [176.0, 74.6],原创 2021-08-14 07:48:08 · 432 阅读 · 0 评论 -
spark ml 报错如下:java.io.NotSerializableException: scala.runtime.LazyRef
用idea执行执行spark ml任务,参考官方的代码,但是运行时候报错如下:org.apache.spark.ml.regression.LinearRegression.train(LinearRegression.scala:176)org.apache.spark.ml.Predictor.fit(Predictor.scala:118)lineReg$.main(lineReg.scala:42)lineReg.main(lineReg.scala)Exception in thread原创 2021-08-13 17:45:12 · 1433 阅读 · 2 评论 -
sparksql process
Spark SQL :SQL 具有普及率高、学习成本低等特点,为了扩大 Spark 的应用面,增加了对 SQL 及 Hive 的支持。Spark SQL 的过程可以总结为:首先使用 SQL 语句解析器(SqlParser)将 SQL 转换为语法树(Tree),并且使用规则执行器(RuleExecutor)将一系列规则(Rule)应用到语法树,最终生成物理执行计划并执行。其中,规则执行器包括语法分析器(Analyzer)和优化器(Optimizer)。Hive 的执行过程与 SQL 类似。...原创 2020-06-03 23:31:12 · 277 阅读 · 0 评论 -
hadoop如何只查某个目录下的文件夹名称
#查看目录oss://tabao-com//day=20200308/ 目录下所有的文件夹名称hadoop fs -ls -R oss://tabao-com//day=20200308/ | grep '^d'分析所有的文件夹都是以d开头的,所以借助管道符号查询所有以d开头的...原创 2020-03-11 15:53:05 · 1592 阅读 · 2 评论 -
spark写入mongo,性能提升10倍+
原来代码:finalDf.rdd.repartition(100).foreach(itm => { val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3)) //单条插入: mongoConn.withCo...原创 2020-01-14 21:29:19 · 1100 阅读 · 0 评论 -
spark假死现象分析
ss.sql( s""" insert overwrite table test.test1 partition(day='$Day', hour) select adx, geo_country as country, connectiontype ...原创 2020-01-10 22:23:19 · 1183 阅读 · 1 评论 -
Missing database name. Set via the 'spark.mongodb.output.uri' or..问题解决
spark数据入mongo报错:User class threw exception: java.lang.IllegalArgumentException: Missing database name. Set via the 'spark.mongodb.output.uri' or 'spark.mongodb.output.database' propertyval conf = n...原创 2020-01-10 13:14:46 · 1679 阅读 · 1 评论 -
CREATE TABLE databasename.t_d11 STORED AS ORC 语句报UnknownHostException: 错误
在阿里云上,由于利用的是临时集群,用的rds的mysql来管理hive元数据,在跑任务时候遇到如下问题:java.lang.IllegalArgumentException: java.net.UnknownHostException: emr-header-1.cluster-41729注意这个 emr-header-1.cluster-41729 ,这是一个ip的域名,于是查看hosts...原创 2020-01-06 19:21:34 · 899 阅读 · 0 评论 -
hive读取orc表,列为null,解决方案
in case of orc data reader schema passed by hive are all small cases and ifthe column name stored in the file has any uppercase, it will return nullvalues for those columns even if the data is pres...原创 2019-12-23 19:14:00 · 3324 阅读 · 2 评论 -
Invalid BSON field name xx 问题解决
先贴一段报错 java.lang.IllegalArgumentException: Invalid BSON field name creaImpcntat org.bson.AbstractBsonWriter.writeName(AbstractBsonWriter.java:494)at org.bson.codecs.DocumentCodec.writeMap(DocumentCode...原创 2019-12-19 20:40:22 · 6237 阅读 · 2 评论 -
aws s3数据迁移到阿里云oss中的解决方案—ossimport
由于工作需求,原来在aws云上跑的任务需要迁移到阿里云上,那么就需要将原来在aws的s3上存的历史数据转移到 阿里的oss中,这里迁移阿里云提供了一套非常优秀的工具ossimport,专门用来将别的云的数据迁移到oss中的,ossimport 主要支持#同步源类型,目前支持:#1.local(本地文件,此选项只需要填写srcPrefix,不需要填写srcAccessKey,srcSecret...原创 2019-12-16 19:29:10 · 2583 阅读 · 0 评论 -
阿里云大数据组件选型
大数据使用场景E-MapReduce 产品当前主要满足企业的以下大数据场景:批处理场景该场景对磁盘吞吐和网络吞吐要求高,处理的数据量也大,但对数据处理的实时性要求不高,您可选用 MapReduce、Pig、Spark 组件。该场景对内存要求不高,选型时您需要重点关注大作业对 CPU 和内存的需求,以及 Shuffle 对网络的需求。Ad-Hoc 查询数据科学家或数据分析师使用即席查询工具检索数据...原创 2019-12-12 11:20:05 · 909 阅读 · 0 评论