iteye_12579
码龄7年
求更新 关注
提问 私信
  • 博客:17,625
    17,625
    总访问量
  • 58
    原创
  • 1
    粉丝
  • 0
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2018-07-11
博客简介:

iteye_12579的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得0次评论
  • 获得10次收藏
  • 博客总排名1,599,197名
创作历程
  • 6篇
    2014年
  • 14篇
    2013年
  • 23篇
    2012年
  • 19篇
    2011年
TA的专栏
  • hadoop
    12篇
  • 很杂的
    9篇
  • 编程工具
    8篇
  • 数据库
    5篇
  • WEB
    9篇
  • SNS
    1篇
  • python
    3篇
  • 算法-mahout
    1篇
  • 技术不全最重要的
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

创作活动更多

『技术文档』写作方法征文挑战赛

在技术的浩瀚海洋中,一份优秀的技术文档宛如精准的航海图。它是知识传承的载体,是团队协作的桥梁,更是产品成功的幕后英雄。然而,打造这样一份出色的技术文档并非易事。你是否在为如何清晰阐释复杂技术而苦恼?是否纠结于文档结构与内容的完美融合?无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

50人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

hive UDAF之cube

之前有想实现在hadoop上面自动cube,并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现,最近项目中需要根据配置自动聚合生成数据,目标结果表格式固定,正好满足自动cube的场景,所以就搞了个demo,还在测试中[code="java"]package com.taobao.voc.hive.udf;/**  * description :对传入的多个维度...
原创
发布博客 2014.04.10 ·
210 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

svn

svn常用命令svn add hive_sql/xx.sqlsvn delete hive_sql/xx.sql取消本地操作: Svn revert --depth=infinity .
原创
发布博客 2014.03.07 ·
456 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven 工程把依赖包打入jar包

将依赖打入jar包,由于maven管理了所有的依赖,所以将项目的代码和依赖打成一个包对它来说是顺理成章的功能。maven的这个功能之前就用过,但这次使用时忘了细节,只记得用maven的assembly插件,但assembly插件功能强大,可以打zip、war各种包,所以一下子找不到如何将依赖打入jar包了。浪费了一点时间,所以一定要记录一下。在pom.xml中加入如下配置即可,关键是con...
原创
发布博客 2014.02.17 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

谢谢你2013

钱的债要还的,年终总结走起,谢谢你2013,你好2014好难,不知从哪说起。2013从变化开始,团队人员变动,工作内容在变,心态在变,方向没变。心态:年初有2个一起奋斗的同事,一个回了老家,一个趁年轻出去了,打算闯几年,挺好的都在一个城市,相信你俩到哪都会有自己的一片天地。所以工作边界又多了一点,能有更多机会接触业务方和更多的人,我发现与人沟通真的是一件能然你收获很多的东西,每...
原创
发布博客 2014.01.12 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

oracle 索引类型- 不同角度分类

逻辑上:[code="java"]Single column 单行索引Concatenated 多行索引Unique 唯一索引NonUnique 非唯一索引Function-based函数索引Domain 域索引[/code] 物理上:[code="java"]Partitioned 分区索引NonPartitioned 非分区索引B-tree:No...
原创
发布博客 2014.01.08 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux下java进程CPU占用率高-分析方法

今天登陆同事的一台gateway 开始以为hive环境登陆不了了,仔细一看看了下是因为机器很卡,我每次等几秒没登陆就ctrl+c了,看了下是有个java进程cpu:340.4% mem:14.6%一般解决方法是通过top命令找出消耗资源高的线程id,利用strace命令查看该线程所有系统调用1. 通过top命令找到可疑进程PIDtop 一下可以看出java进程CPU利用率...
原创
发布博客 2014.01.04 ·
416 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hadoop+hive+mysql 环境搭建

hadoop和hive公司内有rpm包,安装很方便,MySQL安装也不麻烦hadoop安装 http://wiki.aliyun-inc.com/projects/apsara/wiki/yunti1sqa/users1、在线安装rpm包,也可下载rpm包本地安装[code="shell"]sudo yum install -y yunti-hadoop[/code]2、修...
原创
发布博客 2013.12.31 ·
285 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql 2个表字符集不同join时不能正确走索引

昨天一个同事做数据迁移引起一个故障,原因是2张表字符集一个为gbk,一个为utf8,并且join key为vachar类型,导致不能正确索引,导致数据库超时,修改字符集编码后正常。本地重现了一下:一、搞测试数据,文章最后又脚本二、建索引--删除多余索引[code="sql"]drop INDEX index_student_s_age on student ;drop IN...
原创
发布博客 2013.12.05 ·
1180 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 抽样统计

本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的其实很多时候不需要理论,想也是可以想到的,不过还是总结一下 0.测试表: [code="sql"] dr...
原创
发布博客 2013.11.29 ·
360 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python 检测本机公网IP,变化时邮件通知

[code="java"]【完全转载】http://tomxu.iteye.com/blog/1289216代码如下:#!/usr/bin/env python# -*- coding: utf-8 -*-# author: heidanine# file: checkWapIp.py# modified: 2011/03/20 01:40#...
原创
发布博客 2013.05.20 ·
975 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

sublime 插件开发-自动生成代码头

1、首先要熟悉sublime api,插件可以用python开发,这个很好,写好代码,保存到默认的目录应该是\SublimeText2\Data\Packages\User下面,可以按下快捷键Ctrl + ‘ 打开SublimeText的控制台,执行如下命令就可以运行刚刚写的小插件,测试效果:[code="java"]view.run_command('insert_signature')...
原创
发布博客 2013.05.20 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

重新安装hadoop

本文介绍hadoop 最简单配置,保证能本地测试自己写的程序,更多配置可参照末尾文章链接。之前在虚拟机中安装过hadoop hive hbase,电脑重做系统了,本次需要重新安装,虚拟机实在不方便,转cygwin吧,这个东东不错,window上可以用linux的很多东西,本地查看项目的log也很方便,比如 tail -fn 20 xxx.log 可以观察log输出。一、cygwin安...
原创
发布博客 2013.05.20 ·
2112 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

多人调试同一台服务器,追踪ip

日常开发中,项目环境还是日常环境经常会发生多人调试同一台机器(开发和日常一般就一台),想知道谁在调试最简单是可以在群里吼一下,也可以把这个人‘抓’出来,思路如下:1、服务器上看下监听端口有哪些ip在链接,一般不会很多,我设置的监听端口是8787netstat -apn | grep 87872、抓到ip在window局域网 ping -a 显示机器名 就能看到是谁的机器了同样可以用...
原创
发布博客 2013.05.17 ·
272 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

oracle 常用函数

求时间差:天:ROUND(TO_NUMBER(END_DATE - START_DATE))小时:ROUND(TO_NUMBER(END_DATE - START_DATE) * 24)分钟:ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60)秒:ROUND(TO_NUMBER(END_DATE - START_DATE...
原创
发布博客 2013.05.14 ·
99 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Http 响应头

前端时间写了一些爬虫程序,经常用chrome看提交的参数什么的,今天周五有点闲,详细看看请求头和响应头都提交了什么参数,顺便温故了下cookies和session来龙去脉,下面是自己收集的各参数的含义:有的博客说响应头分几个域,什么通用域,请求,响应,Date头域等等……,个人感觉记这些和分类没多大意义,你看见Cache-Control:max-age=0知道什么含义,这才是最根本的,如下:...
原创
发布博客 2013.04.12 ·
172 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python 生成可执行文件

平时工作中有个操作就是代码部署,代码部署流程是这样的1、提交代码到svn库2、打包(3个不同的包)3、等10分钟4、部署我们的代码都是sql代码,所以会频繁发布,每个人一天发布4 5次都是正常的,而且每次发布要走好几部流程,去几个页面,最坑爹的是打包系统需要等10分钟,这样就会经常出现10分钟后代码部署了,才发现,svn忘记提交了,或者是忘记打包了,再次搞,所以很苦逼,就写了个...
原创
发布博客 2013.04.11 ·
664 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

FP-tree 关联规则挖掘

去年公司1拆4,再拆3,在拆25,真是72搬变化,看的我等屌丝一阵胆寒,但一年过去了并没有影响我和同事们的工作,也没有听得到一些负面消息,nice,看来level还查一大大截。拆25的一个大的结果是前台流量必然被瓜分,这个应该会很纠结,有点远,打住。今年我的技术方向有BI转向算法多一点,这也是我个人很甘兴趣的,团队专注于CRM这一块,现在提的比较多的是CEM,好像你还再提crm...
原创
发布博客 2013.03.31 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive wiki -UDTF

1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process, clos...
原创
发布博客 2013.03.19 ·
155 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

没有总结就没有进步之开天辟地

--本篇内容纯非技术内容 著名的成功学定律“细节决定成败”,说的没错,日常工作中,生活中也是一样的道理,细节即是习惯,而时长回头看一下自己走过的路,想一想走过的路,再想想前面的路,一定会有很多很多踩过的坑,下次会再踩到,如果不去总结和思考,一定是再很多……,扯的有点远之所以表达弄这么大是给自己一个惊醒,你需要总结了版主,还答应老婆每周至少2篇博客,多写一些总结性的,那就从今天开始吧,习惯...
原创
发布博客 2013.02.23 ·
192 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hdfs常用命令总结

hdfs模拟了很多linux命令,用法也很类似,平时用到的整理如下:hadoop fs +类似linux命令cat使用方法:hadoop fs -cat URI [URI …]将路径指定文件的内容输出到stdout。示例:hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2had...
原创
发布博客 2013.01.06 ·
210 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多