自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 JAVA爬虫-上海公交线路爬取

  最开始的数据获取也有两个思路  虽然我的数据不是这么来的一 、http://www.zuobus.com/line-overview.php?c=2 这个网站有所有的上海的公交线路二、百度poi 你去遍历整个上海去搜索公交线路也会有的 (不详说了) 今天公司给我一个数据列表 为上海的公交线路,让我爬取。我主要是想记录一下爬取的思路,以备后期查看。 这是我的原始数据话...

2019-01-23 15:14:14 1393 1

原创 sparkStreaming 连接mysql测试

netcat for windows链接:https://pan.baidu.com/s/1crvMSL4JS_ZTCcFr9CPc9w提取码:o2yx因为代码是在windows 写的local模式 所以得下载一个netcat工具作为端口测试工具package com.scalaimport java.sql.DriverManagerimpo...

2019-04-08 22:24:10 815

原创 爬取经纬度--百度

http://api.map.baidu.com/geocoder/v2/?address=中国常州"+name+"&output=json&ak=xxxx可以通过这个api出来 这个地理位置的经纬度

2019-04-03 14:38:26 1295

原创 hive常见错误

本人因为最近业务经常会使用hive,先整理一下常见的出错问题。       1.我最近遇见过一个棘手的问题是,对方给我一个月的数据源用天分割数据,也就是有30个文件夹。但我load到我hive中指定的表的时候发现有三天的数据拉不进去。随后我想把这三天的数据直接复制到我hive表的文件夹下不就可以了么。但随后hive查询并没有显示这三天的数据,但是业务着急先忽略这三天的数据。我去仔细看了一眼数据...

2018-08-30 16:10:18 421

原创 HIVE Left join 结果表为空的后果

我最近遇见了一个BUG  因为是在其他平台跑的数据  也就是电信的大数据平台  我使用的HQL脚本  (因为只让用这个 我也很尴尬)  跑出来的结果表 有两张表没有数据  。 最后去跟电信要log日志  发现并没有报错。最后查了好多个技术文章,才发现这个可能是因为HIVE本身的优化不好。一个长的HQL语句不是特别支持几个子查询在一起 。 我就把所有的子查询都建立的中间表。 最后数据跑出来了。  以...

2018-05-15 14:08:38 5559

HADOOP权威指南 第3版 PDF电子书下载 带目录书签 完整版

HADOOP权威指南 第3版 PDF电子书下载 带目录书签 完整版

2018-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除