Hadoop
吗达拉
这个作者很懒,什么都没留下…
展开
-
将hive中导出的txt文件转化成符合要求的表格
1使用py脚本将txt转化成xlsx#encoding:utf-8from optparse import OptionParserimport sysdefault_encoding = 'utf-8'if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setdefaultencoding(d...原创 2019-01-03 16:02:09 · 1007 阅读 · 0 评论 -
hive的udf,过滤表情等非法字符
实际工作环境中hive导出数据到Mysql,总是报错ncorrect string value: ‘\xF0\x9F\x98\x97\xF0\x9F…’这是由于手机表情不支持UTF-8的运营那边需要nickname,所以就将昵称中的表情过滤掉1.写过滤表情逻辑/** * Created by Liutao on 2019/5/22 16:31 */public class Filt...原创 2019-05-30 17:05:39 · 1780 阅读 · 0 评论 -
工作中Hive的行列转换
hive的行列转换,个人理解就是一变多,多变一的过程。一,行转列在项目中遇见这样一个问题,原始数据经过处理以后是这样的前者是话题ID,后面是与话题相似的前30个话题ID因为要过滤掉用户已经接触过的话题ID,所以,需要将这个数据变成以下的格式17796 1622417796 17385…在hive中创建映射表create external table category_r...原创 2019-06-12 16:57:02 · 489 阅读 · 0 评论 -
Hive中随机抽样
在给用户推荐表中,由于待推荐的话题数太多,所以随机抽样检测。表user_recs_categroyuserinfoid 用户IDsimtopicid 话题IDselect a1.userinfoid,a1.simtopicidfrom (select a1.userinfoid,a1.simtopicid,row_number()over(partition by a1....原创 2019-06-13 14:54:32 · 1172 阅读 · 0 评论 -
hive的数据倾斜问题
1,数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长的时间后提示你内存不足,执行失败2,为什么数据倾斜,以及解决方案①数据本身的问题1,null空值或者是一些没有意义的信息之类的(大多是这个原因)2,无效数据,大量重复的测试数据或者是对结果数据影响不大的有效数据3,有效数据,业务原因导致的正常数据分布,例如统计各省份的信息解决办法:1,2两种情况,直...原创 2019-06-11 11:01:27 · 118 阅读 · 0 评论 -
Hadoop的参数调优
1,Hdfs的参数调优hdfs-site.xml①dfs.namenode.handler.count=20log2(Cluster Size)namenode有一个工作线程池,用来处理不同datanode的并发心跳以及客户端并发的元数据操作。设置该值为集群大小的自然对数乘以20.即如果是8台,就是203=60②编辑日志储存路径dfs.namenode.edits.dir设置与镜像文件存储路...原创 2019-08-29 15:08:25 · 381 阅读 · 1 评论