自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cyh

早起签到群:642179511 [2018我们要早起不赖床]

  • 博客(42)
  • 资源 (3)
  • 收藏
  • 关注

原创 倒排索引

创建两个文件数据,并上传到hdfs datafile editfile fileview searchdata2abcaaedit editview filefile1 file1要求:列出单词所在的文件目录和每个单词的个数思路: 多个输入文件怎么弄? 使用addInputPath(),循环或单个添加在map函数怎么知道单词的路径? 通过context.getInputSplit

2017-10-30 19:14:23 235

原创 python 重定向到文件

#coding:utf-8import sysdef out(): console = sys.stdout #得到当前输出方向, 也就是控制台 file = open("data.txt", 'w') sys.stdout = file #重定向到文件 print 'hello\n'+'java\n'+'python' #输出到文件 sys.stdout

2017-10-28 20:05:52 1089

原创 python MapReduce单词统计

用python写mapreduce还需要了解HadoopStreaming HadoopStreaming是可运行特殊脚本的mapperredece作业的工具 使用格式如下: $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs

2017-10-28 19:49:52 3476

原创 linux每天一命令: bunzip2

参数-c 将压缩过程输出到屏幕-d 解压参数-k 保留源文件-z 压缩参数-v 显示压缩比例信息压缩bzip2 file 会在目录下生成一个file.bz2 的文件,原来的file将消失, 若想保留源文件需要加上-k参数bzip2 -v file2 解压并显示信息解压bzip2 -dk file.bz2 这里加上k参数,表示解压后file.bz2压缩包还会保留

2017-10-26 20:16:44 1108

原创 sqoop 错误记录

Error: java.io.IOException: SQLException in nextKeyValue解决办法:Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000

2017-10-26 08:21:36 1802

原创 sqoop

在导数据出现如下错误:ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set解决办法: 需要将mysql连接驱动换成高版本的将mysql表数据导入到hdfs重启mysqlsudo service mysqld restart

2017-10-26 07:58:11 188

原创 linux每天一命令: gizp

在使用gizp命令对文件进行压缩后, 文件将被压缩成 .gz的后缀名, 源文件则被替换掉压缩会替换调源文件gzip data不替换源文件gzip -c data > data.gz为目录下每个文件进行压缩gzip *递归的给目录下所有子目录的文件进行压缩, 每一个文件将生成一个.zp文件gizp -r dir gizp不能对目录进行压缩, 也不能将多个文件压缩在一起, 只能将多个文件合并

2017-10-25 06:52:28 648

原创 d3画图表

d3画图表的教程好少, 从极客学院上看到了http://wiki.jikexueyuan.com/project/d3wiki/ 但是它这是v3的,我用的是v4,有些东西居然不一样了选择标签, 给标签赋值选择单个标签 直接通过标签获取元素 var p = d3.select(“p”) 通过id获取 var p = d3.select(“#myp”) 通过class获取 var p =

2017-10-24 12:50:05 470

原创 linux每天一命令:查看文本

cat常用参数-n : 显示行号,包括空白行 -b : 显示行号,不包括空白行-T : 用^I代替\t出现tac是cat输出的相反结果nl显示行号more查阅显示 more txt 回车键 显示下一行 q键 离开查阅 b键 回到上次查阅处less在一个新的界面的显示文本 less txt 上下键 上下翻动 /字符串 向后搜索字符串 ?字符串 向前搜索字符串 q离开查阅he

2017-10-23 21:14:07 268

原创 自定义Writable类型 两个数的排序

使用Writable 和 WritableComparable接口的区别 : Writable是对value的封装,可以把多个值做一个类 WritableComparable继承自Writable 和 Comparable , 比Writable 多了个 compareTo方法 , 可以在compareTo方法中对数据的key进行排序处理package com.

2017-10-23 20:27:28 293

原创 自定义Writable类型

对处理较复杂数据时, Writable自带的类型不能满足要求,可以创建一个类是使用Writable接口,实现一个write()和readFields()方法,还需要无参的构造(用于反射),和toString()(用于输出)网上看到了一个统计手机流量的代码,大致数据如下2323,13083012211,apmac,acmac,host,type,pack,pack,1000,1200,yes2323

2017-10-23 17:15:10 414

原创 linux每天一命令:档案复制,移除; cp,rm

cp参数-i 若目标目录下有文件,则会询问是否覆盖-a:dpr参数组合。-d:复制时保留链接。这里所说的链接相当于Windows系统中的快捷方式。-f:覆盖已经存在的目标文件而不给出提示。-i:对已经存在的目标文件给出提示是否覆盖。-p:除复制文件的内容外,还把修改时间和访问权限也复制到新文件中。-r:若给出的源文件是一个目录文件,此时将复制该目录下所有的子目录和文件。-l:不复制文

2017-10-22 19:17:46 487

转载 如果世界上有另一个你

如果世界上有另一个你 他会做所有你害怕不敢去做的事情 实现了它们 然后心满意足过着幸福的生活你真的不会后悔吗 你难道不能跟从自己的内心 大胆走一走吗 去变成你想要的样子吗给自己足够的勇气和信心 去把所有不敢做的事都做了 去把不敢爱的人都表白了 为胆小的自己负责一回如果世界上真的有另一个跟我很像的人 做着我想做的事 完成我想完成的梦 过着我想过的生活 如果让我碰到 我一定会

2017-10-22 14:53:29 260 1

原创 linux每天一命令:目录操作

常见的处理目录指令:cd 进入一个目录当前目录cd .返回上层目录cd ..显示上一次的工作目录cd -进入家目录cdcd ~返回上级目录的上级目录cd ../..pwd显示当前所在目录pwdmkdir新建目录参数 : -p 建立多层 -m 带权限信息mkdir myfile在当前目录下建立一个目录mkdir -p myfile/f1/f2-p参数,可以

2017-10-21 22:30:09 210

原创 python csv模块练习

创建,写入,读取#coding:utf-8import csv'''作用:csv模块练习'''def create(): with open('b:\data.csv','wb') as file: #不存在会创建 w = csv.writer(file,delimiter='|') #指定分割字符,默认"," w.writerow(['姓名','性别

2017-10-20 15:12:08 575

原创 linux每天一命令: chmod 修改档案权限

chmod 用来修改一个 档案所属者的权限, 也可以说是用这个命令改这3组数据”-rwxrwxrwx” (rwx为一组,分别属于user, group, other)可以通过2种方法来改变权限1.使用数字首先要明白 每一组rwx的取值, 也就是r=4, w = 2, x=1, 如果要把权限设置成都启用 则可以这样:chmod 777 file若要递归修改所有子目录下则:chmod -R 777 di

2017-10-19 20:46:10 311

原创 linux每天一命令: chgrp ,chown 修改档案的用户组和拥有者

1.chgrp 是 change group 的缩写, 表示改变表档案的的所属群组将file的用户组修改为root,并使用-v 打印回显信息chgrp -v root file将dir整个目录下文件都设置root组chgrp -R root dir除了-v还有以下参数  -c或--changes 效果类似"-v"参数,但仅回报更改的部分。  -f或--quiet或--silent  不显示错误信息

2017-10-18 23:11:07 565

原创 mapreduce几个例子

http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 原文地址, 动手敲敲实践下1. 文本去重要求 : 将文本中重复的行去掉, 输出结果为所有无重复的行 运行大致流程 : map函数读取每行数据,输出k是这行数据,v是空的, shuffle后,自动完成去重, 进入reduce函数,得到的key就是我们想要的数据impo

2017-10-18 19:55:17 6905

原创 hadoop wordcount

在hdfs上的文本内容如下hello world hello javahello chello hadoop map reduce以下是自己对这个过程的总结 mapreduce执行的流程 input<k1,v1> -> map -><k2,v2> -> <k2,list<v2>> ->reduce<k3,v3> ->output 具体的步骤: map输入 <0,hello

2017-10-18 11:15:23 218

原创 MapReduce的4部分

1.Client用户编写的MapReduce程序通过Client提交到JobTracker端 用户可以通过Client提供的一些接口查看作业的运行状态2.JobTracker负责资源监控和作业调度 监控所有TaskTracker与Job的健康状况, 一旦发现失败,就将相应的任务转移到其他结点 会跟踪任务的执行速度, 资源使用量等信息, 并将这些信息告诉任务TaskScheduler(任务调度器

2017-10-17 23:05:01 940

原创 linux每天一命令:ls

格式ls [选项] [参数]常用的格式例子ls 列出可见的所有文件和目录ls -a 和ls 相比 还可以列出隐藏的文件,目录ls -l 一行一条文件信息, 比ls好用些 和”ll”命令执行结果一样 ls -F 在不同文件类型后加上表示符, 如图 ls -R 递归显示当前目录下所有文件包括子目录下的 ls -m 用“, ” 号分割ls -t 将文件按修改时间排序 最近修改的靠前显示查询结

2017-10-17 17:47:31 429

原创 hive 分区操作

创建分区表,按入学年份进行分区用性别作为分区的条件CREATE EXTERNAL TABLE student(sid int,name String)PARTITIONED BY (year string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';添加分区让2016和2017这两个信息作为分区alter table student a

2017-10-17 14:17:19 301

转载 hive 内部表 和 外部表

原文地址 : http://www.cnblogs.com/qiaoyihang/p/6225151.html内部表create table test (name string , age string) location ‘/input/table_data’; 注:hive默认创建的是内部表 此时,会在hdfs上新建一个test表的数据存放地 load data inpath ‘/in

2017-10-17 12:13:18 211

原创 hive 数据导入表的方式

1. 本地导入创建学生表, 将”\t”作为分割CREATE TABLE student (id int , name string, sex string ) row format delimited fields terminated by '\t';本地文件data.txt如下:(\t分割)1 zhangsa

2017-10-17 12:00:07 1830

原创 使用web界面查看hive

1.下载 apache-hive-src压缩包http://archive.apache.org/dist/hive/hive-1.2.0/2. 解压后,进入 hwi ,将web目录打包jar cvfM0 hive-hwi-1.2.0.war -C web/ .3. 将hwi目录下生成的jar 复制到你的 hive/bin目录下cp hive-hwi-1.2.0.war /usr/local/h

2017-10-16 17:36:30 4104

原创 在启动hive时Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

在启动hive时出现这段错误, 重试了很多遍, 原来是mysql jar没有拷贝到hive/lib目录下

2017-10-16 15:44:11 991

原创 linux每天一命令: 用户组

组可以方便管理员对多个用户进行管理查看组信息vi /etc/group 可以看到每行被”:”号分为4段信息 1. 组名 2. 组密码 用x表示 3. GID(跟UID类似,唯一标识这个组) 4. 属于该组的的用户列表创建一个用户组groupadd myg将用户添加到组中sudo usermod -G myg tt (myg是用户组, tt是用户名) 使用tail /etc/group

2017-10-16 14:24:13 250

原创 linux每天一命令 : 用户增删

查看用户信息vi /etc/passwd 各个字段解释: 查看用户密码信息vi /etc/shadow各字段解释: 添加新用户useradd test #创建名为test的用户 passwd test #为test设置密码 每次添加一个用户都会使用系统的默认值创建用户, 使用 useradd -D 查看各个字段解释:删除用户仅从用户列表删除 userdel 用户名 删除用户和

2017-10-15 16:32:38 303

原创 java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected

在启动hive时报错解决办法进入hive目录/lib : cd /usr/local/hive/lib 把jline-2.12.jar复制到hadoop目录/share/hadoop/lib : cp jline-2.12.jar /usr/local/hadoop/share/hadoop/lib 进入hadoop目录/share/hadoop/lib 删除 jline-0.9.94.ja

2017-10-15 13:54:43 1316

原创 java 操作HBase

HBase本身是有java实现的, 通过javaapi可以进行高效的访问 需要导入HBase/lib目录下所有jarpackage com.cyh;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;imp

2017-10-15 12:04:25 205

原创 HBase shell操作

进入shell cd hbase目录/bin hbase shell创建表 (create 必须在表名后跟上一个列族)create ‘test’,’cf’ 不指明namespace则默认将此表放在default中查看表属性(describe )describe ‘test’ 显示该表的属性结果{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOO

2017-10-14 23:49:33 184

原创 HBase namespace

namespace有啥用?在HBase中namespace作为数据表的逻辑分组, 我可以把这几个表放在一个namespace 中, 把另外几张表放在另一个namespace中查看名称namespace启动hbase后 ,有两种查看方式 1. 访问http://localhost:50070 在导航栏中的Browse ther file system中查看hdfs的目录, hbase的名称空间存

2017-10-14 22:25:07 719

原创 HBase概念

什么是hbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不

2017-10-14 19:25:55 371

原创 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...

start-dfs.sh后出现如上警告 解决办法: 在hadoop目录/etc/hadoop/log4j.properties文件中添加 log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

2017-10-14 16:01:15 234

原创 A Java RunTime Environment (JRE) or Java Development Kit (JDK) must

linux下启动eclipse就弹出此错误, 解决办法:进入eclipse目录 mkdir jre cd jre In -s jdk绝对路径/bin bin重起命令窗口,启动eclipse成功

2017-10-14 15:57:52 422

原创 hdfs文件操作

常用操作命令查看目录 hadoop fs -ls /创建文件夹 hadoop fs -mkdir /文件夹名往里塞文件 hadoop fs -put 本地文件地址 hdfs文件路径 删除文件 hadoop fs -rm /文件名删除文件夹 hadoop fs -rm -r /文件夹名查看文件内容 hadoop fs -cat /文件名将hdfs中的文件下载到本机上 hadoop fs

2017-10-13 10:46:29 612

原创 This incident will be reported

问题:在创建一个新用户后,准备在新用户下进行操作,发现此错误解决办法:su 切换到root用户 vim /etc/sudoers 在命令模式下输入set nu 显示行号 找到第99行 加上一句 新用户 ALL=(ALL) ALL

2017-10-12 13:39:17 3910

原创 hadoop伪分布配置

修改主机名sudo vi /etc/hosts 改成和命令窗口标题栏上@符号后的一样安装sshsudo yum install openssh-clients sudo yum install openssh-server登入ssh(此时需要密码) ssh localhost配置免密登入 (要退出ssh localhost) cd ~/.ssh/ #

2017-10-11 21:15:13 564

原创 Unauthorized request to start container.

问题: 在运行单词统计的jar文件时出现此错误解决: 先删除hdfs中的文件, 修改master上的时间 date -s “当前时间” 重启hadoop

2017-10-11 17:02:46 982

原创 携带Cookie登入

有些网站页面的内容是需要登入后才能看到的, 若直接访问此地址则会跳转到登入界面提示你需要登入, 通过携带cookie这种方式可以将已经登入过的cookie记录记录下来,进行访问#coding:utf-8import requestsimport reimport urllib2import urllibimport os, sysfrom bs4 import BeautifulSoup

2017-10-02 17:44:19 1017

《实战突击:Java Web项目整合开发》全部源码

上传到百度云, 链接若失效私信我即可 《实战突击:Java Web项目整合开发》源码 01 - 都市供求信息网 02 - 物流配货网 03 - 编程爱好者博客地带 04 - 明日知道 05 - 天下陶网络商城 06 - 网络在线考试 07 - 物资管理系统 08 - 企业办公自动化系统 09 - 校园管理系统 10 - 高校学生选课系统 11 - MR网络购物中心 12 - 图书馆管理系统 13 - 讯友网络相册 14 - 企业门户网站 15 - 芝麻开门博客网 16 - 进销存管理系统 17 - 网上淘书吧 18 - 新奥家电连锁网络系统 19 - 大学生求职就业网 20 - 华奥汽车销售集团网 21 - 科研成果申报管理系统

2017-12-08

c语言制作的MP3播放器

利用c语言制作的带界面的音乐播放器,简单小巧

2017-03-15

c语言基于炫彩界面库音乐播放器

c语言基于炫彩界面库音乐播放器

2017-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除