自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (7)
  • 收藏
  • 关注

原创 Pandas使用技巧

记录常用的pandas操作import pandas as pd#读csv文件data= pd.read_csv(r'D:\station_choose.csv',encoding='gbk')#读excel文件data= pd.read_excel(r'D:\前1000查询线路.xlsx',encoding='gbk')#查看列数和行数data.shape#查看类型d...

2019-04-23 15:10:05 295

原创 Spark解决task任务运行时间过长

今天补数据的时候,发现突然任务运行时间比以往过长。查看运行状态,发现有一个task运行过长。解决方法,开启spark.speculation,配置如下:spark.speculation truespark.speculation.interval 100:检测周期,单位毫秒;spark.speculation.quantile 0.75:完成task的百分比时启动推测;spark.s...

2019-04-18 14:21:39 10739

原创 Spark-ml模型保存为PMML

spark版本2.1.3maven设置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.1...

2019-04-03 17:01:58 3958 15

原创 Spark-ml交叉验证demo

原始数据tableData结构root |-- user_id: integer (nullable = false) |-- city: string (nullable = true) |-- category: integer (nullable = false) |-- from_place: string (nullable = true) |-- to_place: str...

2019-04-03 15:45:37 837

原创 Spark-Sql数组array类型转string

原数据和表结构+----------+------------+------------+-------+--------+-----------+|train_code|station_name|station_code|is_late|late_min|arrive_date|+----------+------------+------------+-------+--------+-...

2019-04-02 15:07:38 12006 2

hadoop权威指南 天气测试数据2

这是hadoop权威指南 天气的数据2.

2014-04-23

hadoop权威指南 temperature数据

这是hadoop权威指南中,天气的原始数据,用来测试用的。

2014-04-23

hive函数应用

hive的初级函数调用 例如count,sum等用法

2013-07-03

lbs云开发程序

这个基于百度lbs云发开程序. 有pc,android,ios版本. 请参照百度api来读这些程序

2013-07-02

hadoop初级程序源代码

这是关于hadoop里面程序代码,有wordcount ,partition,onejoin, score,health,dedup,程序. 有.java,也有jar. 提示必须先装上hadoop才能运行

2013-07-02

pyhton 基础教程

这个python新手学习的初级文档,介绍了关于python的入门学习

2013-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除