- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 Pandas使用技巧
记录常用的pandas操作import pandas as pd#读csv文件data= pd.read_csv(r'D:\station_choose.csv',encoding='gbk')#读excel文件data= pd.read_excel(r'D:\前1000查询线路.xlsx',encoding='gbk')#查看列数和行数data.shape#查看类型d...
2019-04-23 15:10:05 295
原创 Spark解决task任务运行时间过长
今天补数据的时候,发现突然任务运行时间比以往过长。查看运行状态,发现有一个task运行过长。解决方法,开启spark.speculation,配置如下:spark.speculation truespark.speculation.interval 100:检测周期,单位毫秒;spark.speculation.quantile 0.75:完成task的百分比时启动推测;spark.s...
2019-04-18 14:21:39 10739
原创 Spark-ml模型保存为PMML
spark版本2.1.3maven设置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.1...
2019-04-03 17:01:58 3958 15
原创 Spark-ml交叉验证demo
原始数据tableData结构root |-- user_id: integer (nullable = false) |-- city: string (nullable = true) |-- category: integer (nullable = false) |-- from_place: string (nullable = true) |-- to_place: str...
2019-04-03 15:45:37 837
原创 Spark-Sql数组array类型转string
原数据和表结构+----------+------------+------------+-------+--------+-----------+|train_code|station_name|station_code|is_late|late_min|arrive_date|+----------+------------+------------+-------+--------+-...
2019-04-02 15:07:38 12006 2
hadoop初级程序源代码
2013-07-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人