自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 Hadoop中map和reduce个数的设置

转载http://my.oschina.net/Chanthon/blog/150500map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和

2016-07-29 14:13:53 3476

原创 Linux的软件包管理工具rpm和yum

1、rpm       -i 安装       -v 显示安装过程       -h 显示安装进度条       -qa 查询所有安装过的软件包rpm -ivh xx.rpm 安装一个软件rpm -qa | grep mysql   查询是否安装过MySQL2、yum  比rpm的 方式好用一些,可以自动的管理软件包的依赖。yum  clear all 清楚缓存

2016-07-11 22:20:39 489

原创 重新设置MySQL的密码

1,MySQL报1045的错误第一步:/etc/init.d/mysqld stop  停止服务第二步:mysqld --skip-grant-tables 跳过密码登录第三部:另开一个窗口,输入mysql 就可以登录了第四部:修改密码,update user set  password='123456' where user='root';第五步:重启服务,/etc/init

2016-07-08 23:10:38 472

原创 SpringMVC中三个映射处理器类

SpringMVC中三个映射处理器类1、 BeanNameUrlHandlerMapping(默认)            2、 SimpleUrlHandlerMappinga.action,b.action,c.action访问的是一个controller支持多个url,访问同一个Controller,按id属性访问-->hiContro

2016-04-20 08:54:48 1028

原创 SpringMVC初体验

struts2的流程   request-->struts.xml-->action--->service--dao                                                            |  view(jsp页面)springMVC的流程request-->dispatcherServlet(前段核心处理器)--->

2016-04-19 23:37:47 408

原创 HBase管理数据的机制

HBase是一种nosql数据库,使用hdfs作为自己的文件系统,所以是天然分布式的数据库。       nosql数据库和传统的关系型数据库有很大的不同,对于要存储的数据,nosql数据库使用一张big table进行存储。不像关系型数据库中把数据分成很多张表,还要考虑表与表之间的关系。       HBase中有两个主要的角色,HMaster 和 HRegionServer。

2016-04-19 10:05:02 1600

原创 linux下安装MySQL

Hive只在一个节点上安装即可1.上传tar包2.解压    tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户)    配置HIVE_HOME环境变量    rpm -qa | grep mysql    rpm -e mysql-libs-5.1.66-2.el6_3.i68

2016-04-16 10:13:26 248

转载 Linux中对文本去重的处理命令

http://www.ourunix.org/post/299.htmlhttp://blog.csdn.net/xia7139/article/details/11714515

2016-04-11 11:45:31 2661

原创 crawler4爬虫速度的优化

crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则,如果匹配规则写的好的能够在一定程度上提高爬虫的效率,具体的优化思路如下。我们要通过分析网站的页面与页面之间的层级关系,找到从seedURL到最终的落地页的之间的一条最优的路径,比如说seedURL->A->B->落地页,那么我在shouldvisit()方法中就可以配3个规则,seedUR

2016-04-11 11:16:21 843

原创 crawler4j简单总结

最近在需要用到爬虫,学习了crawler4j这个简单易用的爬虫框架。1,crawler4j有两个核心类,一个是webcrawler ,负责写url的匹配规则,解析html页面,提取数据等相关的代码2,controller 这个类负责控制爬虫,比如,添加爬虫的seedURL,设置爬虫的爬去深度,是否避开robot.txt等3,webcrawler 这个类有两个很重要的方法,shouldv

2016-04-11 10:46:22 2654

原创 使用jsoup完成模拟登陆

大概的思路如下:1,获取请求的参数,和对应的请求url2,将参数封装到一个Map 中3,使用对应的参数发post请求,获取response4,判断时候模拟登陆成功    /**     * 读取配置文件中的登录参数     *      * @param loginFileName配置文件的名称     * @return 封装了登录信息的一个map  

2016-04-11 10:32:07 2356

原创 在Hadoop2.42集群上安装hive,并将mysql作为元数据的管理数据库

1, tar -zxvf hive###.tar   [指定的目录]2,进入$HIVE_HOME/conf/ 目录下   mv  hive-default.xml.template hive-site.xml3, 删除所有的配置项,将jdbc 的4个参数配置进去4,在$HIVE_HOME/lib 里面添加Mysql 的驱动包      javax.jdo.option.Co

2016-03-18 12:54:27 359

转载 老段Hadoop2.x 集群搭建笔记

1.准备Linux环境    1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok        回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne

2016-03-17 15:22:32 439

原创 如何在hive的shell中使用hadoop shell 和linux的命令

1 使用linux 命令hive> !pwd;  #前面加上一个!后面加上;2 使用hadoop shellhive>fs -ls /  #省去前面的hadoop 后面加上;3 hive -e  可以执行多条Hql ,中间使用;隔开   hive -S 采用静默的方式执行Hql 结果集不会打印到控制台上,而是会输出到标准输出当中,可以使用 | 将结果集重定向到指定的文件当中

2016-03-17 15:11:16 4253

原创 VMware中的Linux通过NAT方式和本机联网设置

1,点击编辑2,选择虚拟机网络配置,选择NAT模式3,点击NAT设置 并设置虚拟网关,点击确定4,打开本地的网络共享中心,选择vmnet85,点击属性,选择tcp4/ipv4,点击属性6,配置网关 和 ip地址 ,用于连接Linux虚拟机7,修改Linux中的IP地址8 最后重启Linux的网络服务 service net

2016-01-26 19:11:09 967

原创 Linux 学习笔记

图形界面与终端的切换 : root用户 : init 3   图形 ---> 终端     startx  相反查看当前用户所在的目录  pwd查看IP地址   ifconfig查看防火墙的状态   service iptables status关闭防火墙   service iptables stop关闭防火墙自动启动  chkconfig iptables off重启网络服务  s

2016-01-26 18:16:36 241

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除