- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 mac mamp 进入mysql命令后
首先找到mamp 中mysql的安装目录:/Applications/MAMP/Library/bin/mysql然后进入: /Applications/MAMP/Library/bin/mysql -u root -p我这里测试配置环境变量,但是由于mac默认安装了mysql或者机器单独安装了mysql,即使配置了环境变量也没起作用,只能输入路径。...
2018-06-26 10:11:54 3116
原创 python 取多维数据的某一列
table=[[0,0,0,0],[1,1,1,1],[2,2,2,2],[3,3,3,3]]不能使用table[:,0],可将其转为array,然后取列table1 = numpy.array(table)取第一列 table1[:,0] 得到[0 1 2 3],如果需要list,可以将其转为list,list(table1(:,0))...
2018-06-24 11:14:41 16485 3
原创 spark 批量插入数据到数据库中
使用批量处理的方式提高效率connection.setAutoCommit(false) //设置手动提交val sql = "xxxx"pstmt = connection.prepareStatement(sql)for (ele <- list){ ······ pstmt.addBatch()}pstmt.executeBatch() //执行批处...
2018-06-08 11:23:50 4879 1
原创 spark DataFram.createOrReplaceGlobalTempView创建Table后在sql语句中找不到table报错
使用global_temp.table名代替 table名select id,name from global_temp.tableName
2018-06-08 10:51:29 2594
原创 spark 调优:分区字段数据类型调整
spark读取数据返回DataFrame时,默认开启了数据类型自动转换,比如字符串20180101会被转换成整型,官网说明如下如果需要关闭这种转换,创建spark时通过config关闭,如:val spark = SparkSession.builder().appName("xxx").master("local[2]").config("spark.sql.sources.partitionC...
2018-06-08 10:18:19 1044
原创 spark 调优:控制输出文件的个数
DataFrame输出结果保存为文件时,尤其是根据某个条件分区时,可以控制输出文件的个数,从而减少小文件的个数DataFrame..coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("分区条件列名").save("路径")这里coalesce指定输出文件个数...
2018-06-08 10:08:14 7957
原创 使用github中的开源项目(maven)
1、下载项目git clone https://github.com/xxxx2、编译下载的项目mvn clean package -DiskipTests3、安装生成的jar包到maven本地仓库mvn install:install-file -Dfile=jar包路径 -DgroupId=xxxx -DartifactId=xxxx -Dversion=xxx -Dpackaging=jar...
2018-06-08 09:03:45 2193
java-json.jar
2018-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人