自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark读取csv文件的方法

1.SparkSession:training = spark.read.format("csv").options(header='true',inferschema='true',encoding='gbk').load(r"hdfs://localhost:9000/taobao/dataset/train.csv")2.SparkContext# 加载数据 封装为row对象,转换为dataframe类型,第一列为特征,第二列为标签training = spark.sparkConte

2020-09-28 16:01:51 3971

原创 配置spark可能遇到的问题及其他相关配置

【问题1】pyspark+pycharm 配置【解决方法】https://blog.csdn.net/u012884015/article/details/80105921PYTHONPATH /usr/local/spark/pythonSPARK_HOME /usr/local/spark【问题2】修改python3为python【解决方法】vim ~/.bashrcalias python=python3source ~/.bashrc【问题3】在spark中配置python环境

2020-09-24 15:46:57 230

原创 hive报错汇总

【错误1】WARN: Establishing SSL connection without server’s identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set. For compliance with e

2020-09-24 15:40:31 524

原创 spark实践-淘宝双十一数据分析与预测

案例任务对淘宝双十一数据进行预处理、存储、查询和可视化分析。项目步骤0. 安装环境Ubuntu18.04Java 1.8MySQL 5.7.31Hadoop 3.1.3Hive 3.1.2Spark 2.4.0Sqoop 1.4.7Eclipse 4.14Pycharm 2020.21. 预处理1. 将原始数据集进行预处理2. 把文本文件的数据集导入数据仓库Hive中2. 存储1. 对数据进行查询分析2. 把Hive的数据导入MySQL中3. 数据分析1. 搭建动态W

2020-09-24 15:09:33 9732 5

原创 记录学习过程中遇到的sql语句

学习过程中遇到的sql语句一、US_2019COVID项目中1. 计算每日较昨日新增确诊病例数和死亡数自连接,新增数=今日-昨日 连接条件:t1.date=t2.date+1select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date=date_add(t2.date,1)2. 统计截止

2020-09-17 16:02:50 309

原创 2020年美国新冠肺炎疫情数据分析

US_2019COVID介绍2020年美国新冠肺炎疫情数据分析–截止2020年9月9日数据处理使用Spark对数据进行分析数据可视化一、数据处理1. 数据集分析数据包含以下字段,具体含义:date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。转换代码见 csv_txt.py2. 上传文件到HDFS文件系统hdfs dfs -

2020-09-16 22:01:26 9220

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除