- 博客(15)
- 收藏
- 关注
原创 excel批量转换为CSV格式
代码中的 fPath = “C:\Users\杜漪漪\Desktop\excle” -定义为需要转换成CSV的Excel源文件。sPath = “C:\Users\杜漪漪\Desktop\转csv”-定义为转换后的CSV文件保存位置。这两个位置需要自己按实际修改。特别注意:路径需要以\结尾。
2023-04-18 09:22:17 4425 6
原创 excel批量删除缺失数据所在的行
在数据处理的过程中,我们经常要过滤缺失值,这个在excel中如何实现呢首先 Ctrl + G,调出‘定位’,并单击‘定位条件’:选择‘空值’,如何单击‘确定’:显示缺失值的行:单击右键,选择‘删除’:选择‘整行’,单击‘确定’:结果
2023-04-16 20:39:56 863
原创 excle表格更改日期+时间格式(%Y-%m-%d %H:%M:%S)小tips
进入后,点击下一步,勾选空格即可。选中日期表格,点击数据选项。进入数据界面,点击分列。
2023-04-16 19:50:34 465
原创 上传数据至hive
注意要是表头为空是建表时行分隔符用错了改一下就好(注意字段名不可以和数据类型一样,当时我的时间字段名为time就报错,改为shijian之后解决)查看表describe extended 表名;表信息文件夹将hdfs上的数据文件导入到表里本地路径导入:load data local inpath '/home/DYY/y.csv' into table y;批量导入导入一整个文件夹的csv文件验证数据是否导入成功如果数据量大的话,最好不要全部查出来,使用limit 查询部分数据;
2023-04-13 15:15:41 265
原创 Kafka+Spark-Streaming实现流式计算(WordCount)
Kafka+Spark-Streaming实现流式计算(WordCount)
2022-06-02 16:10:29 351
原创 使用GeoMesa实现时空索引并进行KNN查询
#安装geomesa-hbase版本:geomesa-hbase_2.11-3.4.0-bin.tar.gz 解压到指定目录后为其添加环境变量减压命令:tar -zxvf解压到指定目录后为其添加环境变量打开环境变量配置文件:vim /home/DYY/.bash添加环境变量:#geomesa_hbaseexport GEOMESA_HBASE_HOME=/home/DYY/geomesa-hbase_2.11-3.4.0export PATH=$PATH:$GEOMESA_
2022-05-31 14:34:41 402
原创 Spark GraphX
#Spark GraphX自定义一个文件夹simplegraphx,在simplegraphx文件夹下递归创建目录:mkdir -psrc/main/scala,在scala目录下创建scala文件如下: mkdir -p /home/DYY/spark/spark-3.1.1-bin-hadoop2.7/simplegraphx/src/main/scala在scala目录下创建scala文件: cd /home/DYY/spark/spark-3.1.1-bin-hadoop2.7/s
2022-05-29 16:36:19 264 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人