- 博客(13)
- 资源 (2)
- 收藏
- 关注
原创 五大算法之一,分治算法
1.分治算法的基本思想将一个规模为N的问题,分解成K个规模较小的子问题,这些子问题相互独立且月原问题性质相同,求解出子问题的解,合并得到原问题的解。2.分治算法特征分析分治法能解决的问题一般具有以下几个特征:1). 该问题的规模缩小到一定程度就可以容易的解决;2). 该问题可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质;3). 利用该问题分解出子问题的解,可以合并为该问...
2019-05-27 16:02:29 212
原创 pgsql数据库在高精地图制作中的应用
传统在线地图满足了导航和随时随地查看地图等很多需求,但是随着自动驾驶、智慧城市、智能交通、5G网络、北斗精准定位等领域的发展,高精地图有了越来越迫切的需求,更丰富的路面信息,更精确的交通设施设备位置,能给自动驾驶车辆提供更多维度数据,给普通在线地图用户提供更多参考,给交通管理部门进行交通管控、交通设施设备管理带来很大便利,高精地图将是社会发展很重要的基础设施。传统在线地图道路相关主要是路网lin...
2019-05-24 19:00:38 766
原创 用java生成多个sheet的excel并发送邮件的可复用类
有时我们用mr、spark或其他大数据工具处理完的数据需要发送邮件,并且以excel附件的形式,excel中有多个sheet,我用java写了一个可复用的类,大家用到时候可以参考:import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFo...
2019-05-23 13:44:40 824
hbase在海量用户日志中快速查询访问路径的使用场景
1.背景:之前公司客服部门有个查看游戏用户行为记录的需求,开始我给他们做了个hive的接口,可以暂时满足需求,但是查询速度太慢,得一分钟出结果。后来我在想能不能用hbase快速查询出用户路径。查询条件有通行证账号、行为类型、时间范围。2.设计方案:用hbase的scan接口,hbase的key设计成 通行证账号_行为类型_时间用如下方式查询:scan 'hbase_gameCent...
2015-04-23 16:08:27 422
从任意hive单表读取并计算数据写入任意mysql单表的hive工具
在基于hive的数据仓库中,每个维度有很多概念分层的场景下,维度和度量的上线和下线在mysql中配置显的很重要。这个hive工具适用于任意多维度,任意多度量值计算。使用方法很简单。用附件中的三个mysql表来配置,然后执行shell程序,从而实现任意hive表向任意mysql表计算并写数据。欢迎试用拍砖。...
2014-08-18 18:56:07 179
spark使用总结
1.RDD:Resilient Distributed Dataset 弹性分布数据集http://developer.51cto.com/art/201309/410276_1.htm2.spark-shell 的使用./spark-shell --driver-library-path :/usr/local/hadoop-1.1.2/lib/native/Linux-i3...
2014-07-07 15:11:39 118
原创 新建hadoop及hive账户
1.创建hadoop组的用户useradd -d /home/chaobo -m chaobo -g hadoophadoop fs -mkdir /download/hadoop/tmp/hadoop/mapred/staging/chaobohadoop fs -chown -R chaobo:hadoop /download/hadoop/tmp/hadoop/mapred/st...
2014-05-10 12:12:04 789
原创 hive中查看表分区目录位置的方法
1.用hive语句describe extended f_gameCenter_user_login_out_day partition(dt = '2014-03-19');2.用hive元数据库mysql查询select a.LOCATIONfrom SDS a left join PARTITIONS bon (a.SD_ID=b.SD_ID)left joi...
2014-03-21 17:02:56 5476
linux shell常用命令总结
1.uname -a 查看服务器位数2.ifconfig linux 查看ip windows下 是ipconfig3.ps -aux 中STAT的含义D 不可中断 Uninterruptible(usually IO)R 正在运行,或在队列中的进程S 处于休眠状态T 停止或被追踪Z 僵尸进程W 进入内存交换(从内核2.6开始无效)X 死掉的进程S+...
2014-01-07 11:02:55 803
hive使用总结
1.hive 数据类型http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html2.substr('abc',0,2) = abmysql 是从1开始的 select * from online_server where substr(count_time,1,10)='2011-12-11'and(se...
2014-01-06 15:00:48 2415
原创 hadoop mapreduce 中java用gson类库解析json
废话不说,代码如下:[code="java"]import java.io.IOException;import java.lang.reflect.Type;import java.util.Iterator;/*import java.util.ArrayList;import java.util.List;import java.util.regex.Ma...
2013-10-28 14:47:45 376
python或hive根据ip计算地域分布的算法
1.使用场景(1.适用于大数据量的ip地域分布场景。(2.python程序和ip库见附件。(3.稍作改动,可用于hive中。2.使用方法:python findarea.py --dealListFile=test_ip_dealListFile_20130930.txt --resultWriteFile=test_ip_resultWriteFile_20130930....
2013-10-08 11:03:20 447
geotools稳定版本geotools-19.4-bin.zip
2019-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人