lumenxu-CSDN博客

转载 Hadoop中map和reduce个数的设置

转载http://my.oschina.net/Chanthon/blog/150500map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和

2016-07-29 14:13:53 3476

原创 Linux的软件包管理工具rpm和yum

1、rpm -i 安装 -v 显示安装过程 -h 显示安装进度条 -qa 查询所有安装过的软件包rpm -ivh xx.rpm 安装一个软件rpm -qa | grep mysql 查询是否安装过MySQL2、yum 比rpm的方式好用一些，可以自动的管理软件包的依赖。yum clear all 清楚缓存

2016-07-11 22:20:39 489

原创重新设置MySQL的密码

1，MySQL报1045的错误第一步：/etc/init.d/mysqld stop 停止服务第二步：mysqld --skip-grant-tables 跳过密码登录第三部：另开一个窗口，输入mysql 就可以登录了第四部：修改密码，update user set password='123456' where user='root';第五步：重启服务，/etc/init

2016-07-08 23:10:38 472

原创 SpringMVC中三个映射处理器类

SpringMVC中三个映射处理器类1、 BeanNameUrlHandlerMapping（默认） 2、 SimpleUrlHandlerMappinga.action,b.action,c.action访问的是一个controller支持多个url，访问同一个Controller，按id属性访问-->hiContro

2016-04-20 08:54:48 1028

原创 SpringMVC初体验

struts2的流程 request-->struts.xml-->action--->service--dao | view(jsp页面)springMVC的流程request-->dispatcherServlet(前段核心处理器)--->

2016-04-19 23:37:47 408

原创 HBase管理数据的机制

HBase是一种nosql数据库，使用hdfs作为自己的文件系统，所以是天然分布式的数据库。 nosql数据库和传统的关系型数据库有很大的不同，对于要存储的数据，nosql数据库使用一张big table进行存储。不像关系型数据库中把数据分成很多张表，还要考虑表与表之间的关系。 HBase中有两个主要的角色，HMaster 和 HRegionServer。

2016-04-19 10:05:02 1600

原创 linux下安装MySQL

Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore（切换到root用户）配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i68

2016-04-16 10:13:26 248

转载 Linux中对文本去重的处理命令

http://www.ourunix.org/post/299.htmlhttp://blog.csdn.net/xia7139/article/details/11714515

2016-04-11 11:45:31 2661

原创 crawler4爬虫速度的优化

crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则，如果匹配规则写的好的能够在一定程度上提高爬虫的效率，具体的优化思路如下。我们要通过分析网站的页面与页面之间的层级关系，找到从seedURL到最终的落地页的之间的一条最优的路径，比如说seedURL->A->B->落地页，那么我在shouldvisit()方法中就可以配3个规则，seedUR

2016-04-11 11:16:21 843

原创 crawler4j简单总结

最近在需要用到爬虫，学习了crawler4j这个简单易用的爬虫框架。1，crawler4j有两个核心类，一个是webcrawler ，负责写url的匹配规则，解析html页面，提取数据等相关的代码2，controller 这个类负责控制爬虫，比如，添加爬虫的seedURL，设置爬虫的爬去深度，是否避开robot.txt等3，webcrawler 这个类有两个很重要的方法，shouldv

2016-04-11 10:46:22 2654

原创使用jsoup完成模拟登陆

大概的思路如下：1，获取请求的参数，和对应的请求url2，将参数封装到一个Map 中3，使用对应的参数发post请求，获取response4，判断时候模拟登陆成功 /** * 读取配置文件中的登录参数 * * @param loginFileName配置文件的名称 * @return 封装了登录信息的一个map

2016-04-11 10:32:07 2356

原创在Hadoop2.42集群上安装hive，并将mysql作为元数据的管理数据库

1, tar -zxvf hive###.tar [指定的目录]2，进入$HIVE_HOME/conf/ 目录下 mv hive-default.xml.template hive-site.xml3, 删除所有的配置项,将jdbc 的4个参数配置进去4，在$HIVE_HOME/lib 里面添加Mysql 的驱动包 javax.jdo.option.Co

2016-03-18 12:54:27 359

转载老段Hadoop2.x 集群搭建笔记

1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne

2016-03-17 15:22:32 439

原创如何在hive的shell中使用hadoop shell 和linux的命令

1 使用linux 命令hive> !pwd; #前面加上一个！后面加上；2 使用hadoop shellhive>fs -ls / #省去前面的hadoop 后面加上；3 hive -e 可以执行多条Hql ,中间使用；隔开 hive -S 采用静默的方式执行Hql 结果集不会打印到控制台上，而是会输出到标准输出当中，可以使用 | 将结果集重定向到指定的文件当中

2016-03-17 15:11:16 4253

原创 VMware中的Linux通过NAT方式和本机联网设置

1,点击编辑2,选择虚拟机网络配置,选择NAT模式3,点击NAT设置并设置虚拟网关,点击确定4,打开本地的网络共享中心,选择vmnet85,点击属性,选择tcp4/ipv4,点击属性6,配置网关和 ip地址 ,用于连接Linux虚拟机7,修改Linux中的IP地址8 最后重启Linux的网络服务 service net

2016-01-26 19:11:09 967

原创 Linux 学习笔记

图形界面与终端的切换 : root用户 : init 3 图形 ---> 终端 startx 相反查看当前用户所在的目录 pwd查看IP地址 ifconfig查看防火墙的状态 service iptables status关闭防火墙 service iptables stop关闭防火墙自动启动 chkconfig iptables off重启网络服务 s

2016-01-26 18:16:36 241

lumenxu的博客