- 博客(14)
- 收藏
- 关注
原创 Spark学习笔记
RDD(Resilient Distributed Dateset),弹性分布式数据集。RDD的五大特性:1.RDD是由一系列partition组成2.算子(函数)是作用子partition上的3.RDD之间有依赖关系4.分区器是作用在K,V格式的RDD上5.partition对外提供最佳的计算位置,利于数据处理的本地化问题:1.什么是K.V格式的RDD?RDD中的每个元素是一...
2020-09-16 10:48:52 219
原创 kafka
集群搭建:修改conf/server.properties的broker.id 从0开始计数修改log.dirs=/kafka-logs 此地址为接收数据存放地址修改zookeeperkafka启动命令nohup bin/kafka-server-start.sh config/server.properties > kafka.log 2>&1 &am...
2020-05-05 23:12:37 198
原创 环境安装备忘
卸载openJDK rpm -qa|grep java rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.161-2.b14.el7.x86_64 rpm -e --nodeps java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64安装java解压后在/etc/profile中添加exp...
2020-03-03 15:43:46 252
原创 在windows环境下跑MapReduce
将部署的hadoop-2.6.5和hadoop-2.6.5-src的包解压创建hadoop-lib将hadoop-2.6.5/share/* 下的所有jar包拷贝到hadoop-lib将tools/bin目录下的全部复制到hadoop-2.6.5/覆盖将覆盖后的hadoop-2.6.5/bin/hadoop.dll放到c:windows/system32下创建环境变量HADOOP_HO...
2020-01-02 10:48:33 378
原创 MapReduce执行插入Hbase时的报错解决
刚写了个MapReduce用于数据处理,并把结果写到Hbase中保存,但在执行MapReduce过程中报错我记得应该是执行完下面的hadoop-env.sh那一步之后我做了次同步,又执行了次报了.NoClassDefFoundError的错大概是这么个情况 错误已经修复,当时忘了截图了NoClassDefFoundError这种错误是没有配置classpath导致的我把两个步骤放在一起写...
2019-12-25 16:40:15 422
原创 Hadoop datanode扩容(附带centos硬盘扩容)
前言做这个的原因就是本身自己用的hadoop集群是在本机用vm虚拟出的三台机子部署的,所以各方面都受限制,比如说内存大小和硬盘大小。这次问题就出在了硬盘上,由于数据集过大,导致以前给两个slave每个分的20G硬盘都用完了,只能再给他们分一点地方了。内容主要分为两个部分,前半部分就是centos硬盘扩容,后半部分就是datanode的扩容第一部分首先需要在vm里把虚拟机器硬盘的容量加上去...
2019-11-12 16:09:04 677
原创 sqoop学习笔记&hive和hbase整合
安装1.安装过程就是解压2.修改conf/目录下的sqoop-env-template.sh为sqoop-env.sh(应该改不改都行)文件里面不需要配置 因为环境变量里都有3.然后就是添加环境变量export SQOOP_HOME=/opt/sqoopexport PATH=$PATH:$SQOOP_HOME/bin记得source /etc/profile4.还要添加数据库...
2019-06-25 11:29:22 388
原创 Hbase&MapReduce笔记
在执行MapReduce时添加参数 private void processArgs(Configuration conf2, String[] args) { String date = ""; for (int i = 0; i < args.length; i++) { if("-d".equals(args[i])) { if(i+1<args.leng...
2019-06-24 10:57:44 185
原创 hive学习笔记
Create Tablerow_format : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] [NULL...
2019-05-15 12:26:35 309
原创 网络爬虫并存入MySql数据库
接着之前的爬虫做的,只不过把结果导入到MySql数据库中了,有点像那么回事了,哈哈哈数据库只有两个键,一个自动递增的id,和一个用来存html链接的htmlpackage net;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.i...
2018-10-30 22:32:33 878
原创 批处理Batch 插入1000条数据的测试
import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class Connect...
2018-10-30 17:06:49 1211
原创 网络爬虫示例
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.UnsupportedEncodingException;import java.net.MalformedURLException;import java.net.URL;i...
2018-10-30 12:14:05 235 1
原创 java向MySql数据库中插入数据
package test;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.SQLException;public class Test01 { public static void main(String[] a...
2018-09-28 21:34:09 38387
原创 MySql连接数据库常用参数及代码示例
常用参数参数名称参数说明缺省值最低版本要求user数据库用户名(用于连接数据库)password用户密码(用于连接数据库)useUnicode是否使用Unicode字符集,如果参数characterEncoding设置为gb2312或gbk,本参数值必须设置为truefalse1.1gcharacterEncoding当useUnic...
2018-09-28 15:47:00 6824
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人