- 博客(16)
- 收藏
- 关注
转载 Hadoop中map和reduce个数的设置
转载http://my.oschina.net/Chanthon/blog/150500map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和
2016-07-29 14:13:53 3476
原创 Linux的软件包管理工具rpm和yum
1、rpm -i 安装 -v 显示安装过程 -h 显示安装进度条 -qa 查询所有安装过的软件包rpm -ivh xx.rpm 安装一个软件rpm -qa | grep mysql 查询是否安装过MySQL2、yum 比rpm的 方式好用一些,可以自动的管理软件包的依赖。yum clear all 清楚缓存
2016-07-11 22:20:39 489
原创 重新设置MySQL的密码
1,MySQL报1045的错误第一步:/etc/init.d/mysqld stop 停止服务第二步:mysqld --skip-grant-tables 跳过密码登录第三部:另开一个窗口,输入mysql 就可以登录了第四部:修改密码,update user set password='123456' where user='root';第五步:重启服务,/etc/init
2016-07-08 23:10:38 472
原创 SpringMVC中三个映射处理器类
SpringMVC中三个映射处理器类1、 BeanNameUrlHandlerMapping(默认) 2、 SimpleUrlHandlerMappinga.action,b.action,c.action访问的是一个controller支持多个url,访问同一个Controller,按id属性访问-->hiContro
2016-04-20 08:54:48 1028
原创 SpringMVC初体验
struts2的流程 request-->struts.xml-->action--->service--dao | view(jsp页面)springMVC的流程request-->dispatcherServlet(前段核心处理器)--->
2016-04-19 23:37:47 408
原创 HBase管理数据的机制
HBase是一种nosql数据库,使用hdfs作为自己的文件系统,所以是天然分布式的数据库。 nosql数据库和传统的关系型数据库有很大的不同,对于要存储的数据,nosql数据库使用一张big table进行存储。不像关系型数据库中把数据分成很多张表,还要考虑表与表之间的关系。 HBase中有两个主要的角色,HMaster 和 HRegionServer。
2016-04-19 10:05:02 1600
原创 linux下安装MySQL
Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i68
2016-04-16 10:13:26 248
转载 Linux中对文本去重的处理命令
http://www.ourunix.org/post/299.htmlhttp://blog.csdn.net/xia7139/article/details/11714515
2016-04-11 11:45:31 2661
原创 crawler4爬虫速度的优化
crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则,如果匹配规则写的好的能够在一定程度上提高爬虫的效率,具体的优化思路如下。我们要通过分析网站的页面与页面之间的层级关系,找到从seedURL到最终的落地页的之间的一条最优的路径,比如说seedURL->A->B->落地页,那么我在shouldvisit()方法中就可以配3个规则,seedUR
2016-04-11 11:16:21 843
原创 crawler4j简单总结
最近在需要用到爬虫,学习了crawler4j这个简单易用的爬虫框架。1,crawler4j有两个核心类,一个是webcrawler ,负责写url的匹配规则,解析html页面,提取数据等相关的代码2,controller 这个类负责控制爬虫,比如,添加爬虫的seedURL,设置爬虫的爬去深度,是否避开robot.txt等3,webcrawler 这个类有两个很重要的方法,shouldv
2016-04-11 10:46:22 2654
原创 使用jsoup完成模拟登陆
大概的思路如下:1,获取请求的参数,和对应的请求url2,将参数封装到一个Map 中3,使用对应的参数发post请求,获取response4,判断时候模拟登陆成功 /** * 读取配置文件中的登录参数 * * @param loginFileName配置文件的名称 * @return 封装了登录信息的一个map
2016-04-11 10:32:07 2356
原创 在Hadoop2.42集群上安装hive,并将mysql作为元数据的管理数据库
1, tar -zxvf hive###.tar [指定的目录]2,进入$HIVE_HOME/conf/ 目录下 mv hive-default.xml.template hive-site.xml3, 删除所有的配置项,将jdbc 的4个参数配置进去4,在$HIVE_HOME/lib 里面添加Mysql 的驱动包 javax.jdo.option.Co
2016-03-18 12:54:27 359
转载 老段Hadoop2.x 集群搭建笔记
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne
2016-03-17 15:22:32 439
原创 如何在hive的shell中使用hadoop shell 和linux的命令
1 使用linux 命令hive> !pwd; #前面加上一个!后面加上;2 使用hadoop shellhive>fs -ls / #省去前面的hadoop 后面加上;3 hive -e 可以执行多条Hql ,中间使用;隔开 hive -S 采用静默的方式执行Hql 结果集不会打印到控制台上,而是会输出到标准输出当中,可以使用 | 将结果集重定向到指定的文件当中
2016-03-17 15:11:16 4253
原创 VMware中的Linux通过NAT方式和本机联网设置
1,点击编辑2,选择虚拟机网络配置,选择NAT模式3,点击NAT设置 并设置虚拟网关,点击确定4,打开本地的网络共享中心,选择vmnet85,点击属性,选择tcp4/ipv4,点击属性6,配置网关 和 ip地址 ,用于连接Linux虚拟机7,修改Linux中的IP地址8 最后重启Linux的网络服务 service net
2016-01-26 19:11:09 967
原创 Linux 学习笔记
图形界面与终端的切换 : root用户 : init 3 图形 ---> 终端 startx 相反查看当前用户所在的目录 pwd查看IP地址 ifconfig查看防火墙的状态 service iptables status关闭防火墙 service iptables stop关闭防火墙自动启动 chkconfig iptables off重启网络服务 s
2016-01-26 18:16:36 241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人