![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
追枫萨
更厉害的大人和更可爱的小孩...
展开
-
PyTorch、TensorFlow深度学习框架学习
Pytorch: 深度学习与pytorch入门 pytorch动态神经网络(莫烦Python教学) 莫烦Python PyTorch中文网 Pytorch中文文档TensorFlow: 深度学习框架tensorflow学习与应用 TensorFlow...原创 2019-06-09 17:18:28 · 669 阅读 · 0 评论 -
Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格
实现from pyspark.sql.functions import *#df_tmp为DF对象,包含列“captureTime”df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()结果原创 2020-05-13 17:14:15 · 2688 阅读 · 0 评论 -
Pyspark消费kafka集群某一topic中json数据并保存到hdfs上
需求对于进入到Kafka中的实时数据可以通过Flume从Kafka中消费并输出保存到hdfs上。但对于Kafka中历史数据,Flume不起作用了,可以通过spark streaming从头消费Kafka主题中json数据,并将数据以json形式保存到hdfs上。查看json数据#执行pyspark进入交互界面,执行以下代码查看从kafka中读到的json数据,#topic:dl_f...原创 2020-05-07 18:17:49 · 1693 阅读 · 5 评论 -
Pyspark groupBy()分组自定义udf函数
原文链接可见,groupBy()后生成数据含有两列:"card_id"及"min(time)"原创 2020-04-29 18:04:35 · 3468 阅读 · 0 评论 -
记:pyspark读取嵌套json字段并使用startswith统计
from pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextspark = SparkSession.builder.appName('face_history').enableHiveSupport().getOrCreate()sc = spark.sparkContextsqlContext = ...原创 2020-04-28 14:40:30 · 852 阅读 · 0 评论 -
Kafka: 分布式集群创建并查询主题
//创建主题face,分区数为1,副本数为1bin/kafka-topics.sh --create --topic face --zookeeper hadoop01:2181 --partitions 1 --replication-factor 1//查询主题bin/kafka-topics.sh --zookeeper hadoop01:2181 --list//删除主...原创 2020-04-02 17:59:35 · 750 阅读 · 0 评论