- 博客(13)
- 资源 (5)
- 收藏
- 关注
原创 Win下使用Java操作远程完全分布式集群中的HBase
前提条件本地Windows(7或10)系统下已经装好了JDK和Eclipse,笔者电脑JDK1.8。已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。本地已经成功连接到远程HBase,连接方法详见:本地Java连接远程集群上的HBase...
2018-12-22 13:47:38 625 3
原创 Win下使用Java连接远程完全分布式集群上的HBase
前提条件本地Windows(7或10)系统下已经装好了JDK和Eclipse,笔者电脑JDK1.8。已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。HostnameIPmaster10.0.86.245ceph1...
2018-12-21 14:52:18 1803 3
转载 HBase 与 Hive 的区别和关系
原文出处:https://blog.csdn.net/andrewgb/article/details/50493088看到了很多博文中对HBase 与 Hive 的区别做了一些说明,关于这个问题,在刚开始学习 HBase 和 Hive 时就有了这个问题在我脑海中,所以在看到这些博文后,忽然觉得茅塞顿开,可能还需要一段时间的消化和吸收,但是已经比之前明白了许多,写下这篇博文,供日后使用。一 ...
2018-12-11 20:40:27 372
原创 HBase2.1.0表操作命令
首先进入HBase[root@master ~]# hbase shellHBase ShellUse "help" to get list of supported commands.Use "exit" to quit this interactive shell.Version 2.1.0, re1673bb0bbfea21d6e5dba73e013b09b8b49b89b, ...
2018-12-11 15:55:55 954
原创 Hbase2.1.0启动失败解决方案积累
当前CentOS,JDK和Hadoop版本:[root@master ~]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core)[root@master ~]# java -versionopenjdk version "1.8.0_191"OpenJDK Runtime Environment (build 1.8...
2018-12-11 11:49:23 3816 8
原创 Hbase2.1.0 on Hadoop3.0.3集群(基于CentOS7.5)
完全分布式集群搭建请移步:在CentOS7.5上搭建Hadoop3.0.3完全分布式集群当前CentOS,JDK和Hadoop版本:[root@master ~]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core)[root@master ~]# java -versionopenjdk version &quot
2018-12-10 17:00:01 1252 2
转载 Zookeeper集群搭建
原文出处:http://www.cnblogs.com/qingyunzong/p/8619184.htmlZooKeeper 软件安装须知鉴于 ZooKeeper 本身的特点,服务器集群的节点数推荐设置为奇数台。我这里我规划为三台, 为别为 hadoop1,hadoop2,hadoop3回到顶部ZooKeeper 的集群安装ZooKeeper 的下载下载地址:http://mirror...
2018-12-10 14:53:58 309 2
转载 「Python」爬虫自然语言清洗组件 v1.0.0
原文出处:https://blog.csdn.net/qq_33282586/article/details/80637257 公告:博主因使用魔理沙的扫把表达清洗,已被车万粉拉去祭天。设计思路我认为从网站上爬取下来的内容要清洗的有两大块:通用清洗和规则清洗,换句话说就是可复用的和不可复用...
2018-12-09 18:00:17 284
转载 自己动手实现html去标签和文本提取
随意观看工具准备全角和半角字符网页字符实体Code实现之后...工具准备python3.6正则表达式(别的语言思路一样,容易借鉴)python正则表达式:flags的应用这里主要介绍一下re.compile(pattern[, flags])里面的flags用法标识符作用re.I忽略大小写re.L表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境r...
2018-12-09 17:13:53 1359
原创 Python用xpath爬取数据返回空列表解决
笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段①tbody问题URL:2018AAAI的第一篇论文元数据页面 页面如下:笔者通过谷歌浏览器选取上图红框内容的xpath如下:from lxml import etreeimport requestsurl = 'https://aaai.org/ocs/index....
2018-12-08 16:20:23 42785 13
原创 Python使用xlrd和xlwt向Excel读写数据
一、从Excel读数据下图是我的url.xlsx内容,此处我以读取B列(即第2列)URL数据为例import xlrddata = xlrd.open_workbook('C:\\Users\\Administrator\\Desktop\\url.xlsx') #打开工作簿table = data.sheets()[0] # 读取第一个Sheet,此处为默认的Sheet1urls...
2018-12-07 11:47:54 1227
转载 python+selenium批量爬取IEEExplore论文
原文出处:https://blog.csdn.net/qq_25072387/article/details/78588173一、环境搭建首先下载安装selenium包,推荐直接使用pip之后还要下载对应浏览器的驱动(driver),这里使用的是chrome浏览器,注意驱动与浏览器的版本要相对应。下载的驱动直接复制到python和chrome的安装目录下。python+selenium的...
2018-12-06 19:34:56 1420
转载 python操作Excel读写--使用xlrd
原文出处:https://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html一、安装xlrd模块 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍 1、导入模块 &...
2018-12-06 19:31:41 176
Jclasslib_win64bit
2018-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人