- 博客(10)
- 资源 (5)
- 收藏
- 关注
原创 hive 中修改 map 类型切分方式 及hive元数据问题
hive 中 经常用到的 map类型mapString:String其中 map中各元素的切分方式 通过 colelction.delime 确定问题:找了网上 没找到其修改colelction.delime 的方式 所以打起了 修改元数据的方式记录小 最后定为SERDE_PARAMS 定义了表中 字段切割方式 通过修改此表 修改了 colelction.delime 的切分方式...
2019-05-29 17:21:16 1403 2
原创 hive 复杂数据类型 在数仓中应用(array、map、struct、和其组合应用)
环境:一般宽表建表可能考虑存储更多信息选择复杂模型建设复杂数据类型:array、map、struct1.数组array,里边不能装不同类型的数据more hive_array.txtzhangsan beijing,shanghai,tianjin,hangzhoulisi changchun,chengdu,wuhan,beijing创建表create tabl...
2019-05-28 21:02:19 2772
原创 linux 上 debug python 调试
适用范围1、当启动某些服务出现异常时,且报错比较模糊时。问题找不到头脑调试脚本无疑是非常好的方式(cloudera 等)2、python 环境单点运行调试自己pyhon调试步骤首先你选择运行的 py 或服务程序的入口pypython -m pdb test.py(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h说明下这几个关键 命令断点设置(Pdb...
2019-05-27 16:00:56 3402
原创 xpath自定义属性值的取法
想拿取div 下的 data-platid 的属性值取法for data_platid in response.xpath(’//div[@class=“td-item btn-comp”]/@data-platid’).extract()注:采用 类似html.xpath(’//div[2]/span/@id’) 测试取不到...
2019-05-15 19:38:14 6437
原创 linux grep 常用操作记录(或并与显示多行)
1 查看关键机字范围行#grep -A 5 ‘parttern’ filename //打印匹配行的后5行#grep -B 5 ‘parttern’ filename //打印匹配行的前5行#grep -C 5 ‘parttern’ filename //打印匹配行的前后5行#grep -5 ‘parttern’ filename //打印匹配行的前后5行其他相关#tail -n 5 ...
2019-05-15 17:23:43 2856
原创 (.*?)正则表达式 效率问题
应用 MapReduce 正则匹配出自己要的字段问题:正则配置后效率太慢影响其相应mr执行旧正则表达式修改后的正则表达式效率提升很多。程序执行时间降低了很高...
2019-05-14 18:15:15 925
原创 cm 中hive 多实例 主备容错
hive metastore server 用于连接hive 的原数据信息(部署两个节点)官网解释(hive原数据和分区的访问都要通过metastore )hive 可以通过 Gate way 的 hive 命令访问元数据hive server2一个服务端接口,使远程客户端可以执行对Hive的查询并返回结果。目前基于Thrift RPC的实现是HiveServer的改进版本,并支持多客户...
2019-05-10 19:04:19 623
转载 clodera scm 数据库表信息 和 hive元数据整理
一、 cloudera 会将页面的数据存储到 SCM 中 其表结构梳理(对应生产BAOFOO_SCM)AUDITS登录信息、服务,角色重启、配置更改PROCESSES进程信息。这里面有很多信息。开放的web端口。HOSTS主机信息,包括IP地址,所在机架,内存,CPU等信息CLIENT_CONFIGS客户端配置,里面有下载客户端配置的路径。CONFIGS_AUD配置审计表。C...
2019-05-10 18:47:21 401
原创 linux 查看某个端口被服务占用情况
1、lsof -i:端口号2、netstat -tunlp|grep 端口号lsof -i 用以显示符合条件的进程情况,lsof(list open files)是一个列出当前系统打开文件的工具。以root用户来执行lsof -i命令,如下图3 、netstat -tunlp|grep 端口号netstat -tunlp用于显示tcp,udp的端口和进程等相关情况,如下图netsta...
2019-05-10 16:32:26 1954
原创 UnresolvedAddressException报错
INFO client.RemoteDriver: Connecting to: ZW0804-hadoop-95:2007819/05/10 10:10:23 ERROR yarn.ApplicationMaster: User class threw exception: java.util.concurrent.ExecutionException: java.nio.channels.U...
2019-05-10 11:02:25 4767
show-busy-java-threads.sh
2020-08-05
tensorflow-1.11.0-cp36-cp36m-win_amd64.whl
2019-08-26
Microsoft Visual C++ 14.0
2018-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人