- 博客(19)
- 资源 (13)
- 收藏
- 关注
原创 Hadoop-Python实现Hadoop Streaming分组和二次排序
分组(partition)Hadoop streaming框架默认情况下会以’/t’作为分隔符,将每行第一个’/t’之前的部分作为key,其余内容作为value, 如果没有’/t’分隔符,则整行作为key;这个key/tvalue对又作为该map对应的reduce的输入。 -D stream.map.output.field.separator 指定分割key分隔符,默认是/t -D
2018-01-10 18:26:07 4319 2
原创 Hadoop-SecondarySort
MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求。为了满足复杂的需求需要Hadoop二次排序Secondary Sort。过程在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。 他提供的
2018-01-10 18:25:13 625
原创 Hadoop-MUnit
MRUnit是一款由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框架。主要引入mrunit,mockito-all,junit三个类库。POM.xmldependency> groupId>junitgroupId> artifactId>junitartifactId> version>4.8.2version>
2018-01-10 18:24:12 547
原创 Hadoop-Streaming
Hadoop Streaming提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer,从而充分利用Hadoop并行计算框架的优势和能力,来处理大数据Hadoop Streaming原理mapper和reducer会从标准输入中读取用户数据,一行一行处理后发送给标准输出。Streaming工具会创建Ma
2018-01-10 18:22:59 700
原创 Hadoop集群常见的错误
时间不同步引起的错误运行MapReduce时出现这种错误,是由于集群中没有设置时间同步(设置时间同步参照http://download.csdn.net/download/cdl2008sky/9381519)15/04/21 15:30:08 INFO mapreduce.Job: Task Id : attempt_1429584224671_0003_m_000007_1, St
2018-01-10 18:17:15 1604
原创 Hadoop集群内存优化
MapReduce map task 和reduce task 数量设置规则 1、map task的个数=输入文件总大小/分片尺寸。也就是说分片尺寸越大,map task的个数就越少=>系统执行的开销越小,系统管理分片的开销越小。 2、网络传输开销,如果分片太大以至于一个分片要跨越多个HDFS块,则一个map任务必须要由多个块通过网络传输,所以分片大小的上限是HDFS块的大小。 3、redu
2018-01-10 18:16:18 1072
原创 Hadoop集群常用命令
hadoop 常用命令命令格式[root@namenode0 hadoop-common]# hadoop Usage: hadoop [–config confdir] COMMAND where COMMAND is one of: fs run a generic filesystem user client ve
2018-01-10 18:12:07 4779
原创 Hadoop集群IO优化
保证数据完整性校验技术。 客户端读取数据节点上的数据时,会验证校验和,将其与数据节点上存储的校验和进行对比。HDFS通过复制完整的副本来产生一个新的,无错的副本来“治愈”哪些出错的数据块。工作方式:如果客户端读取数据块时检测到错误,抛出ChecksumException前报告该坏块以及它试图从名称节点中读取的数据节点。名称节点将这个块标记为损坏的,不会直接复制给客户端或复制该副本到另一个数
2018-01-10 18:07:16 1707
原创 随性随笔_201606
尽力而为之a.能干什么就干什么。 通过一门技能养活自己。靠时间和精力做东西。 b.什么挣钱就干什么。 不限制行业,不限制年龄。适应社会的需求来改变自己。 c.想干什么就干什么。 理想主义者,创业者,要么成功,要么失败。 d.干什么就能成什么。 马云,雷军之流没有目标的学习,只是看起来很努力没有计划的学习是浪费时间,没有目标的努力是在自己欺骗自己而已。 最好的休息就是
2018-01-10 18:05:03 640
原创 随性随笔_201512
跳槽的思考跳槽的目的是为了达到某种职业目标。 不能频繁跳槽。 不可替代的技术以及更广的人脉关系才是需要我们去积累的。 Address 笔记 来自 中国海洋石油办公楼 在 北京市市辖区管理者的思考通过下属来完成任务。 以目标为中心。 管理者是业务的推动者。 Address 笔记 来自 中国北京市房山区良乡地区良官公路 在 北京市市辖区健康的生活饮食和生活习惯a.早晨起床多喝水吃善存 b.
2018-01-09 13:34:14 510
原创 随性随笔_201508
2015年收获1、对网站做了升级。www.qlm99.com 2、拥有自己的空间。www.chenlly.com 3、一年有一半周末的时间在工作。总是感觉时间不够用。 4、戒掉游戏,早睡早起的习惯逐步养成。 5、大概需要看了30本书。 6、项目,www.9diancaixun.com 理财顾问专家。 7、项目,旧汽车回收项目。 8、准备下一个公司的启动工作,电动汽车租赁。 9、跑步,
2018-01-09 13:33:22 585
原创 交通流理论
交通流参数流量速度密集度流 量流量是指在单位时间内,通过道路某一点、某一断面或某一条车道的交通实体数(对于机动车流而言就是车辆数)。流量可通过定点调查直接获得,流量和车头时距有以下关系: q = N /T 式中: q——流量(veh/h); T——观测时段长度; N——观测时段内的车辆数。 速 度1.地点速度(也称为即时速度、瞬时速度) 地点速度 为车辆通过道路
2018-01-09 13:31:57 7948 1
原创 Python-排序
list.sort()方法此函数方法对列表内容进行正向排序,排序后的新列表会覆盖原列表,sort排序方法是直接修改原列表list a = [5, 7, 6, 3, 4, 1, 2] a.sort() print a a.reverse() # 倒序 print asorted()方法即可以保留原列表,又能得到已经排序好的列表 a = [5, 7, 6, 3, 4, 1, 2] b =
2018-01-09 13:30:25 541
原创 PyCharm安装和Padans数据处理
安装配置PyCharm官方下载地址:http://www.jetbrains.com/pycharm/ CSDN下载地址:http://download.csdn.net/download/coofly/6637569配色方案的调整: File–>Settings–>Editor–>Colors & Fonts 选择Monokai 显示行号 File–>Settings–>Editor–>
2018-01-09 13:29:34 2513
原创 Sublime开发python程序
下载、安装Python程序https://www.python.org/downloads/下载、安装 sublime http://www.sublimetext.com/关联pythonPreferences->Browers Packages ->Python ->Python.sublime-build 修改Python.sublime-build文件,增加python安装路径{
2018-01-09 13:28:24 571
原创 R语言入门
R下载地址https://cran.r-project.org/R使用程序内置函数和用户自编函数提供的,一次交互式会话期间的所有数据对象都被保存在内存中 R语句由函数和赋值构成。 R使用 <- ,牛刀小试使用函数 c()以向量的形式输入月龄和体重数据 age <- c(1,3,5,2,11,9,3,9,12,3); weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0
2018-01-09 13:27:22 1436
原创 Redis入门
Nosql数据库应用场景少量数据存储,高速读写访问。此类产品通过数据全部in-momery 的方式来保证高速访问,同时提供数据落地的功能,实际这正是Redis最主要的适用场景。海量数据存储,分布式系统支持,数据一致性保证,方便的集群节点添加/删除。mysql、redis、mogodb 的区别mongodb是文档型的非关系型数据库,其优势在于查询功能比较强大,能存储海量数据。 MongoDb相
2018-01-09 13:26:30 356
原创 github pages + hexo 构建自己的网站
一、前期准备git git安装地址nodejs nodejs安装地址hexo 使用npm安装 安装好nodejs以后,进入nodejs安装目录二、Hexohexo是一款基于Node.js的静态博客框架。 在nodejs安装目录下执行命令$npm install hexo -g仅需一步就把 Hexo 本体和所有相依套件安装完毕。更新hexo到最新版$npm update
2018-01-09 13:22:56 3693 1
原创 《大型网站架构演化》-读书笔记
1、大型网站特点高并发、大流量PV日均IPUV日活跃高可用可收缩海量数据快速迭代,发布频繁高安全2、演化过程2.1、应用服务和数据服务分离。 典型的,应用服务 + 数据库服务 + 文件服务2.2、增加缓存,改善网站性能。 根据二八定律,百分之80的业务访问集中在20%的数据上,所以需要对那20%的数据缓存在内存里,以提
2018-01-09 11:12:02 314
Java 操作World
2010-07-29
Java 调用C/C++程序
2010-07-29
effective java
2008-11-05
JMeter 压力测试详解PPT
2008-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人