大数据
就要辣谢谢。
在机器学习的路上不断摔跤的奋斗者
展开
-
spark读取csv文件的方法
1.SparkSession:training = spark.read.format("csv").options(header='true',inferschema='true',encoding='gbk').load(r"hdfs://localhost:9000/taobao/dataset/train.csv")2.SparkContext# 加载数据 封装为row对象,转换为dataframe类型,第一列为特征,第二列为标签training = spark.sparkConte原创 2020-09-28 16:01:51 · 3971 阅读 · 0 评论 -
spark实践-淘宝双十一数据分析与预测
案例任务对淘宝双十一数据进行预处理、存储、查询和可视化分析。项目步骤0. 安装环境Ubuntu18.04Java 1.8MySQL 5.7.31Hadoop 3.1.3Hive 3.1.2Spark 2.4.0Sqoop 1.4.7Eclipse 4.14Pycharm 2020.21. 预处理1. 将原始数据集进行预处理2. 把文本文件的数据集导入数据仓库Hive中2. 存储1. 对数据进行查询分析2. 把Hive的数据导入MySQL中3. 数据分析1. 搭建动态W原创 2020-09-24 15:09:33 · 9731 阅读 · 5 评论 -
2020年美国新冠肺炎疫情数据分析
US_2019COVID介绍2020年美国新冠肺炎疫情数据分析–截止2020年9月9日数据处理使用Spark对数据进行分析数据可视化一、数据处理1. 数据集分析数据包含以下字段,具体含义:date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。转换代码见 csv_txt.py2. 上传文件到HDFS文件系统hdfs dfs -原创 2020-09-16 22:01:26 · 9217 阅读 · 0 评论