自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (18)
  • 收藏
  • 关注

原创 【hive】hive优化官网地址

hive官网https://cwiki.apache.org/confluence/display/Hive/Roadmaphttps://cwiki.apache.org/confluence/display/Hive/Presentations

2013-05-29 01:51:39 7234

转载 【hive】hive的查询注意事项以及优化总结

一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、 map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduc

2013-05-29 01:46:54 5777

转载 【hive】hive估算reduce

hive估算reduce的逻辑如下:(1)     判断Job是否需要reduce操作,如不需要reduce操作,reduce数设置为0,跳出;如需要reduce操作,执行步骤(2);(2)     判断Job是否在编译时确定reduce数为1,如编译确定为1,reduce数设置为1,跳出;如需要reduce操作,执行步骤(3);(3)     判断Job是否手动设置red

2013-05-29 01:43:47 1107

转载 【hive】hive优化

最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把!总的来说,除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本,所以我们的环境还是使用的0.20版本的hadoop来进行搭建。

2013-05-29 01:43:09 947

转载 【hive】hive的数据格式介绍

textfilesequencefilercfileavro自定义 TEXTFIEL默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。> create table test1(str

2013-05-29 01:38:37 1558

转载 【hive】Hive基础及效率优化

阅读这篇文章后,会对hive 与 map/reduce有基本了解,并掌握简单的优化方法一、Hive map reduce个数优化Map的个数是怎么产生的主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);如:1)假

2013-05-29 01:37:08 1248

原创 【git】改变git库地址

git remote -vgit remote rm origingit remote add origin git@127.0.0.1:project_name.gitgit remote -v

2013-05-29 00:56:09 1215

原创 计算广告学网址

http://sheetoo.com/app/course/ov?course_id=200

2013-05-27 15:31:49 955

转载 【hive】如何获取hive建表语句(转载)

说明:本文转载自http://www.imphrack.com/?p=21  DWer 谢谢原创作者分享!该脚本是基于hive0.4.2版本,现在最新的0.8.1版本 hive元数据库已经有过些许改变。需要要将脚本中表名COLUMNS修改为COLUMNS_V2,字段SD_ID修改成CD_ID 。 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并

2013-05-25 15:28:19 4379 2

转载 【hive】hive的扩展特性

转载:http://www.alidata.org/archives/604Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/st

2013-05-25 09:57:29 1091

转载 【hive】写好hive程序的五个启示

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关

2013-05-25 09:54:10 1141

转载 网站广告联盟点击作弊概述(转)

转自:http://shitingwu.blog.163.com/blog/static/7156120125445940599/作弊是一个贬义词,如果在现实中提到作弊这个词时,大家都会不屑一顾,甚至有点鄙视的感觉,但是在网络上,这是一种名正言顺的网赚技巧,从大网站到垃圾站,都有作弊的经历或者说正在作弊着,例如搜狐前一段时间被爆ALEXA作弊,例如通用搜索直接就是病毒插件等,网络是一个有潜规则

2013-05-25 05:33:06 3948

转载 百度发布的手机站优化技巧

百度发布的手机站优化技巧来源:未知 作者:元创 时间:2013-01-22 21:13:26 字体:[大 中 小] 我要投稿百度发布的手机站优化技巧:1. 域名尽量简短,越短的域名,用户记忆成本越低。2. robots限制放开,百度spider的爬虫UA是Baiduspider(www和wap一致),个别站长经常会误认为百度手机爬虫的UA是baiduspider-mob

2013-05-25 04:26:41 1212

原创 【hadoop】reducer输出多个目录

hadoop的reducer输出多个文件关键字: hadoop, mapreduce有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。

2013-05-24 09:21:23 2645

原创 [python]对字典进行排序

myDict ={"url12.html":12    ,"url1112.html":212    ,"url346.html":1333    ,"url222.html":12...}期望按照值的排序进行输出,值有可能一样;原先以为可以使用外部数组排序后比对输出的,因为值可能重复才发觉不成;询问 xyb,dreamingk 才知道,原来有内置函式支持的!"

2013-05-22 11:09:34 1210

转载 [shell/awk]按列求和

在Shell中,我们可以用awk实现按列求和的功能,非常简单。看下面的例子:1.简单的按列求和[linux@test /tmp]$ cat test123.52125.54126.36[linux@test /tmp]$ awk '{sum += $1};END {print sum}' test

2013-05-22 11:08:14 18505

转载 【python】url解码

py有标准的urllib库 测试如下 Python代码  IDLE 2.6.6        >>> import urllib  >>> s = '/search?keyword=测试'  >>> s2 = urllib.quote(s)  >>> print s2  /search%3Fkeyword%3D%B2%E2%CA%D4

2013-05-21 10:55:34 924

转载 移动广告收入

广告样式Banner:banner是目前最普及的广告形式,各家广告平台都支持这一形式。Interstitial ads(插播式广告):在广告设计上有更多的空间,该方式受到品牌广告主青睐,主要以CPM计价,价格较高。但是由于影响用户体验,因此展示的次数不宜过多。Rich media:富媒体广告,包括视频,互动的Flash等。计费方式CPM:cost per t

2013-05-21 03:46:13 1610

转载 大数据排序或取重或去重相关问题

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为3

2013-05-21 03:08:06 2001

转载 广告防作弊技术

常见的网络广告防作弊技术    小偷和骗子都是另人可恶的,但生活中又是客观存在,作弊和欺骗点击也同样另人可恶,但又防不甚防。杜绝是不可能的,而防止是我们所有广告人的一种责任。以下是多数广告投放系统常用的几种防作弊方式,希望给每个网络营销者带来一点有用的帮助。     1、IP防止作弊    一般计费方式是按照24小时内唯一IP,可以将每个IP记入数据库,当下一个访问IP与数据库已存在的

2013-05-21 03:07:17 1462

原创 tips

很多时候,如果不确切明白问题的原因而通过后补的方式绕过问题,那么同样的问题会在将来不断的出现。

2013-05-20 12:46:22 750

转载 【java】java 进程

一、概述      ProcessBuilder类是J2SE 1.5在java.lang中新添加的一个新类,此类用于创建操作系统进程,它提供一种启动和管理进程(也就是应用程序)的方法。在J2SE 1.5之前,都是由Process类处来实现进程的控制管理。      每个 ProcessBuilder 实例管理一个进程属性集。它的start() 方法利用这些属性创建一个新的 Process

2013-05-20 12:42:47 1298 1

转载 hbase hbck

https://issues.apache.org/jira/browse/HBASE-5128 https://github.com/jmhsieh/hbase-repair-scripts  HBASE-5128之前版本的HBCK:检查master、regionserver内存中的状态以及hdfs上面数据的状态之间的一致性  (1)获取所有region的信息(reg

2013-05-17 10:12:20 9088

转载 [hbase]Increment V.S. Read-Modify-Write in HBase

Increment V.S. Read-Modify-Write in HBase在 HBase: The Definitive Guide 中,Lars George 介绍了 HBase 的一个新特性 Counter Increment,即把一个 column 当作 一个 counter,这样便于给某些应用提供统计功能。传统上,如果没有 counter,当我们要给一个 column

2013-05-17 09:12:21 1955

转载 【linux】linux命令后台运行

转自:http://www.cnblogs.com/lwm-1988/archive/2011/08/20/2147299.html有两种方式:   1. command & : 后台运行,你关掉终端会停止运行   2. nohup command & : 后台运行,你关掉终端也会继续运行   一、 简介     Linux/Unix 区别于

2013-05-09 13:59:26 880

转载 【linux】【sendmail】Disable local delivery in Sendmail

转载:http://serverfault.com/questions/65365/disable-local-delivery-in-sendmail/128450#128450http://vbird.dic.ksu.edu.tw/linux_server/linux_redhat9/0380sendmail.php#theory_mailtrans   (鸟哥sendmail)

2013-05-09 04:13:01 1541

转载 【it】如果微信走向世界流

耶鲁计算机科学教授 David Gelernter 年初在《 Wired 》发过一篇 The End of the Web, Search, and Computer as We Know It。文章大意是基于空间的网络将被基于时间的「世界流」(Worldstream)所取代,这个「世界流」无所不包:这种由错杂元素组成、内容可搜索且即时的“生活流”,通常会以博文、RSS 订阅源、推文、对话流、Fa

2013-05-05 00:07:11 817

转载 【互联网广告】计费方式

计费方式我们来介绍目前最主流的几种计费方式:[3]CPC(点击成本)即Cost-per-click,每点击成本。按照广告点击付费的模式是互联网广告最早的计费方式,1994年出现的第一支广告就是采用此计费方式。由于广告的点击非常容易作弊,因此CPC计费方式产生的后果就是媒体大量的生成虚假点击欺骗广告主,同时由于广告主更熟悉、更接受电视广告的宣传模式,因此出现了CPD的

2013-05-05 00:03:49 1878

转载 【互联网广告】移动互联网广告

[核心提示] 移动广告目前其在盈利上还面临不少困境,包括用户精准定位、广告价值变现等问题。如何能够解决这些问题,将会是移动广告未来是否能够真正成功的关键,虽然苹果的 iPhone 5 发布会并没有让大多数人眼前一亮,但其销量可以想见的是一定仍然会继续延续之前的势头,以 iOS、Android 为首的智能手机、平板电脑设备掀起的移动互联网浪潮很清晰的告诉我们,移动计算已经成为市场的主流。Go

2013-05-04 23:53:20 1533

转载 【互联网广告】移动互联网广告现状:是什么 为什么

转载自: http://www.leiphone.com/1106-s-mobile-ad-report.html“移动互联网广告”这个词,在两年前大概是一个非常有生机和诱惑力的说法。但如今,这个概念似乎已经变成了“乱”的代名词。这是怎么发生的呢?今年9月,金山和360先后在手机客户端推出了拦截广告的功能,并无一例外遭到了移动广告代理商和部分广告主的抵制。此事纷纷扰扰闹

2013-05-04 15:53:13 1445

转载 【广告术语】维度和指标

转载: https://support.google.com/analytics/answer/1033861?hl=zh-Hans&ref_topic=2709827参考网站: https://www.google.com/intl/zh-Hans_ALL/analytics/index.html维度和指标维度:说明数据维度是指可指定不同值

2013-05-04 14:47:18 2150

转载 【广告术语】留存率

用户留存率在互联网行业中,用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用应用的被认作是留存;这部分用户占当时新增用户的比例即是留存率,会按照每隔1单位时间(例日、周、月)来进行统计。顾名思义,留存指的就是“有多少用户留下来了”。留存用户和留存率体现了应用的质量和保留用户的能力。编辑本段留存率计算公式留存率=登陆用户数/新增用户数*100% (一般统计周期为天)

2013-05-04 14:32:32 3121

转载 【http】各种浏览器的useragent

IE   而IE各个版本典型的userAgent如下:   Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)   Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)   Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

2013-05-04 01:37:13 1715

转载 【linux】centos启动网卡

步骤1、配置/etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情:[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"HWADDR="00:0C:29:FD:FF:2A"NM

2013-05-01 06:35:24 1131

推荐系统实战

中文版的 推荐系统实战 推荐系统入门必备 非常好的书籍

2019-01-08

阿里中台战略

中台战略,挺详细的, 全方位介绍中台战略的思想与架构 专注与架构演进与变化发展

2019-01-08

PRML-pattern recognize and machine learning

PRML 翻译版,高清,一共有476也是拉地方撒快乐的咖啡洒楼的房间司法考试了

2018-04-14

dbus编译后的package 02

dbus编译后的package阿斯顿浪费拉升地方拉屎的发撒地方

2018-01-04

dbus编译后的package-04

dbus编译后的package阿斯顿发生的发生的发生的发生的发生的

2018-01-04

dbus编译后的package001

dbus编译后的package撒到佛罗伦萨啦啦啦啦啦收到两份收到了发生地方

2018-01-04

dbus编译后的package

dbus编译后的package塞法阿斯顿发生的发生的发生的发生

2018-01-04

UNIX网络编程第2卷

UNIX网络编程第2卷 经典书,不说了

2012-08-02

unix网络编程第1卷

unix网络编程第1卷 好书,经典书,多余的介绍就不必了

2012-08-02

unix编程艺术

unix编程艺术,美国的理曼德所著,经典书籍,多了就不说了

2012-08-02

java并发编程实践(英文)

java并发编程实践,很牛的一本书,作者都是世界上那几位大侠

2012-01-28

struts2权威指南

这本书好不好不说了,大家都知道的。这个是pdf,比较清晰了

2011-10-18

云存储压缩文件

这个是有关云计算方面的资料,比较详细,值得一看

2011-10-18

数据挖掘讲义

这个是最经典的那边教科书的讲义,比较丰富,是复习的资料

2011-10-18

数据挖掘pdf

这个是不错的有关数据挖掘方面的书籍,我看了下,确实比较不错

2011-10-18

hbase实战简介

这个是个ppt,介绍hbase的,我感觉还可以,特此抛砖引玉,望大家把好东西不要吝啬,贡献出来

2011-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除