![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
huangqihao723
这个作者很懒,什么都没留下…
展开
-
spark机器学习-常见函数使用(pyspark版)
参考spark机器学习 基于pycharm进行开发,pyspark安装见上篇博文 数据集包含的字段为:id,年龄,性别,职业,邮编from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkContext(conf=conf)...原创 2020-04-22 11:07:14 · 234 阅读 · 0 评论 -
MAC本地搭建spark
pyspark安装pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple求和from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkConte...原创 2020-04-21 22:18:29 · 368 阅读 · 0 评论 -
pyspark 拼接hive table所有的列
表名:data构成:data.printSchema() 可以看到有map类型的大字段以及其他string or long or timestamps字段#解决方法:1.针对map类型大字段,利用hive中的concat_ws函数即可完成里面所有字段的拼接2.除大字段外,剩余的字段在data样例中不多,直接用concat函数进行拼接若剩余字段字段比较多,不想手工敲,那...原创 2018-05-31 11:26:40 · 1326 阅读 · 0 评论 -
Spark同步mysql数据到hive
第一步:从maven中下连接mysql的jar包第二步:spark2-shell --jars mysql-connector-java-8.0.15.jar第三步:// scala 版val df = spark.read.format("jdbc").option("url", "jdbc:mysql://rr-bp1d22ltxgwa09g44720.mysql.rds.a...原创 2020-03-26 23:57:37 · 2561 阅读 · 0 评论