- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 JAVA爬虫-上海公交线路爬取
最开始的数据获取也有两个思路 虽然我的数据不是这么来的 一 、http://www.zuobus.com/line-overview.php?c=2 这个网站有所有的上海的公交线路 二、百度poi 你去遍历整个上海去搜索公交线路也会有的 (不详说了) 今天公司给我一个数据列表 为上海的公交线路,让我爬取。我主要是想记录一下爬取的思路,以备后期查看。 这是我的原始数据话...
2019-01-23 15:14:14 1444 1
原创 sparkStreaming 连接mysql测试
netcat for windows 链接:https://pan.baidu.com/s/1crvMSL4JS_ZTCcFr9CPc9w 提取码:o2yx 因为代码是在windows 写的local模式 所以得下载一个netcat工具作为端口测试工具 package com.scala import java.sql.DriverManager impo...
2019-04-08 22:24:10 836
原创 爬取经纬度--百度
http://api.map.baidu.com/geocoder/v2/?address=中国常州"+name+"&output=json&ak=xxxx 可以通过这个api出来 这个地理位置的经纬度
2019-04-03 14:38:26 1302
原创 hive常见错误
本人因为最近业务经常会使用hive,先整理一下常见的出错问题。 1.我最近遇见过一个棘手的问题是,对方给我一个月的数据源用天分割数据,也就是有30个文件夹。但我load到我hive中指定的表的时候发现有三天的数据拉不进去。随后我想把这三天的数据直接复制到我hive表的文件夹下不就可以了么。但随后hive查询并没有显示这三天的数据,但是业务着急先忽略这三天的数据。我去仔细看了一眼数据...
2018-08-30 16:10:18 425
原创 HIVE Left join 结果表为空的后果
我最近遇见了一个BUG 因为是在其他平台跑的数据 也就是电信的大数据平台 我使用的HQL脚本 (因为只让用这个 我也很尴尬) 跑出来的结果表 有两张表没有数据 。 最后去跟电信要log日志 发现并没有报错。最后查了好多个技术文章,才发现这个可能是因为HIVE本身的优化不好。一个长的HQL语句不是特别支持几个子查询在一起 。 我就把所有的子查询都建立的中间表。 最后数据跑出来了。 以...
2018-05-15 14:08:38 5581
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人