2018年06月_Chengliangyao

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创 mac mamp 进入mysql命令后

首先找到mamp 中mysql的安装目录：/Applications/MAMP/Library/bin/mysql然后进入： /Applications/MAMP/Library/bin/mysql -u root -p我这里测试配置环境变量，但是由于mac默认安装了mysql或者机器单独安装了mysql，即使配置了环境变量也没起作用，只能输入路径。...

2018-06-26 10:11:54 3116

原创 python 取多维数据的某一列

table=[[0,0,0,0],[1,1,1,1],[2,2,2,2],[3,3,3,3]]不能使用table[:,0]，可将其转为array，然后取列table1 = numpy.array(table)取第一列 table1[:,0] 得到[0 1 2 3]，如果需要list，可以将其转为list，list(table1(:,0))...

2018-06-24 11:14:41 16485 3

原创 spark 批量插入数据到数据库中

使用批量处理的方式提高效率connection.setAutoCommit(false) //设置手动提交val sql = "xxxx"pstmt = connection.prepareStatement(sql)for (ele <- list){ ······ pstmt.addBatch()}pstmt.executeBatch() //执行批处...

2018-06-08 11:23:50 4879 1

原创 spark DataFram.createOrReplaceGlobalTempView创建Table后在sql语句中找不到table报错

使用global_temp.table名代替 table名select id,name from global_temp.tableName

2018-06-08 10:51:29 2594

spark读取数据返回DataFrame时，默认开启了数据类型自动转换，比如字符串20180101会被转换成整型，官网说明如下如果需要关闭这种转换，创建spark时通过config关闭，如：val spark = SparkSession.builder().appName("xxx").master("local[2]").config("spark.sql.sources.partitionC...

2018-06-08 10:18:19 1044

原创 spark 调优：控制输出文件的个数

DataFrame输出结果保存为文件时，尤其是根据某个条件分区时，可以控制输出文件的个数，从而减少小文件的个数DataFrame..coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("分区条件列名").save("路径")这里coalesce指定输出文件个数...

2018-06-08 10:08:14 7957

原创使用github中的开源项目（maven）

1、下载项目git clone https://github.com/xxxx2、编译下载的项目mvn clean package -DiskipTests3、安装生成的jar包到maven本地仓库mvn install:install-file -Dfile=jar包路径 -DgroupId=xxxx -DartifactId=xxxx -Dversion=xxx -Dpackaging=jar...

2018-06-08 09:03:45 2193

java-json.jar

sqoop1 import 时报错Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject。下载后，然后放到sqoop/lib目录即可。

2018-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Chengliangyao的博客