- 博客(18)
- 收藏
- 关注
原创 webDriver的安装和使用
webDriver的安装查看谷歌浏览器的版本去http://npm.taobao.org/mirrors/chromedriver/下载浏览器版本对应的chromeDriver,notes.txt文件中有写到对应版本,注意查看将下载好的chromeDriver解压好复制到谷歌浏览器安装目录,并未谷歌浏览器添加环境变量打开pycharm 使用pip下载selenium模块创建driver...
2018-09-28 14:00:28 61362 2
原创 pyspider的一些简单应用
pyspider不要框架获取部分网页内容url = "https://www.creditchina.gov.cn/xinxigongshi/shipinanquanjianduchoujian/jieguoxiangqing/index.html?id=62335&dataType=1"# # print("aaaaaa")# # html =...
2018-09-28 13:48:55 596
原创 flume大全,,,配置和相关实例
flumeagent 结构flume运行的核心是agent。flume以agent为最小的独立运行单位, flume有三个核心组件 - source 是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到事件(event)里,然后将事件推入Channel中 - source类型 - netcat source 监控某个端口将流经端口的每一个文本行数据作...
2018-09-10 23:23:39 235
原创 hbase加载数据的方式以及与其他组件hive等集成
hbase与其他组件集成hbase与MapReduce集成设置HBase、Hadoop环境变量(hbase目录下) export HBASE_HOME=/opt/modules/hbase-0.98.6-hadoop2 export HADOOP_HOME=/opt/modules/hadoop-nn 设置Hadoop_classpath环境变量HADOOP_CLA...
2018-09-10 23:10:10 580
原创 hbase java api
hbase java api前期准备在src/main下新建resource文件夹在pom.xml添加下面内容<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hbase.version>0.98....
2018-09-10 23:08:29 175
原创 hbase shell 命令
hbase shell 命令list 查看存在哪些表scan “表名称” 插卡某个表某个列中所有数据create ‘people’,’info1’,’info2’ 创造表并指定列簇put put ‘people’,’10001’,’info1:age’,’20’ people是表名,10001是rowkeycount ‘people’ 查看表中有多少行get ‘peop...
2018-09-10 23:06:43 1548
原创 hbase安装和配置(完全分布式)
hbase安装与配置(完全分布式)解压安装包启动hdfs启动zookeeper修改配置文件hbase-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_79 export HBASE_MANAGES_ZK=falsehbase-site.xml <configuration><!-...
2018-09-10 23:05:37 331
原创 hive进阶,以及hive处理日志文件实例,数据倾斜处理等hive进阶内容
hive进阶case-when-then-else select id,name,age1, case when age1 < 18 then ‘小屁孩’ when age1 >=18 then ‘成年人’ else ‘aa’ end as age222222 from person;hive server2配置<property>...
2018-09-10 22:24:25 1044
原创 hive相关语句及打jar包运行范例等
hive的语句查看表在hdfs上的目录 show create table 表名设置reduce个数 set mapred.reduce.tasks=4;创建内部表并指定分隔符create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';映射文件(内部表) ...
2018-09-07 17:07:34 2425 1
原创 hadoop集群多namenode配置
多namenode配置规划:bigdata01.com bigdata02.com bigdata03.comnamenode namenodedatanode datanode datanode两个HDFS集群联盟部署: 在[bigdata01] $ cp -ra...
2018-09-07 17:05:58 8513
原创 hadoop集群的yarn ha配置,亲测
YARN HA部署yarn-site.xml文件: <!--启用resourcemanager ha--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value...
2018-09-07 17:04:40 3364 1
原创 namenode的ha配置,亲测
namenode的ha配置一、Namenode HA部署: 目标: 防止单个Namenode宕机以后,整个HDFS集群无法访问规划: bigdata01.com bigdata02.com bigdata03.com Namenode Namenode datanode datanode datanode jour...
2018-09-07 17:03:29 2762 1
原创 分布式hadoop搭建,自己测试成功过,很详细
分布式hadoop集群分布服务器功能规划 node-1 :namenode,datanode,nodemanager,historyserver node-2:resourcemanage,datanode,nodemanager node-3:datanode,nodemanager,secondarynamenode具体命令#在node-1上$ bin/hdfs na...
2018-09-07 17:01:23 1403
原创 hive相关配置
hive的配置Hive部署 版本 0.13.1 1、安装JDK 2、安装Hadoop 确保Hadoop可以正常使用(上传文件、运行jar) 3、安装Hive “` tarzxf/opt/softwares/apache−hive−0.13.1−bin.tar.gztarzxf/opt/softwares/apache−hi...
2018-09-07 16:58:36 263
原创 伪分布式hadoop集群搭建
hdfs的配置hadoop-env.sh文件 export JAVA_HOME=/opt/modules/jdk1.7.0_67core-site.xml文件 <!--HDFS集群访问入口地址,写上namenode的主机名--> <property> <name>fs.defaultFS</...
2018-09-07 16:57:32 273
原创 python爬虫相关
基础知识点python格式化python格式化 数字格式化 python print("{:.2f}".format(3.1415926))#设置两位小数 print("{:.2%}".format(0.25))#百分比 print("{:^10}".format("aaaaa"))#居中 print("{:<10}".format("aaaaa")
2018-09-07 16:48:13 289
原创 linux进阶命令,ssh讲解,文件如何最简单上传下载,shell命令等进阶命令与更深了解linux
linux补充命令reboot重启halt 关机ps命令(查看当前进程)ps -ef| grep ssh(查看ssh的相关进程)chown命令 chown [-R] 账号名称 文件/目录(R表示递归)chmod r读写权4 w写入权2 执行权1 chmod 777 -R xxx(文件或者目录)(用户,组,其他可读可写可执行)ps查看进程jps查看java进程set命令查看环境...
2018-09-07 11:20:35 319
原创 python爬虫基础及实例---代码经过实测
requests模块发送get,post请求response = requests.get(url)response = requests.post(url,data={请求体的字典})response的方法response.text 该方法经常会出现乱码,出现乱码使用response.encoding=”utf-8”response.content.decod...
2018-09-07 11:09:05 63281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人