大数据_笔记本做笔记的博客-CSDN博客

大数据

关注

关注数：文章数：33 文章阅读量：100512 文章收藏量：61

作者: 笔记本做笔记

这个作者很懒，什么都没留下…

展开

java.lang.RuntimeException: java.lang.NoSuchMethodException ......<init>()

运行job任务中存在自定义参数类型(即实现了WritableComparable接口的类)控制台会报出:java.lang.RuntimeException: java.lang.NoSuchMethodException ......<init>() 处理办法: 1.在自定义参数类型的类中添加空参的构造器, 2.并在空参构造器中将类中的属性进行初始化(即添加this.属性...

原创 2018-06-12 17:32:42 · 3512 阅读 · 0 评论
Variable or condition declaration after cursor or handler declaration

使用MySQL创建游标错误代码更改后

原创 2018-06-28 12:00:52 · 5209 阅读 · 2 评论
MySQL创建自增字段，并设置初始值

创建自增字段create table table_name (id INT AUTO_INCREMENT PRIMARY KEY );更改初始值alter table table_name AUTO_INCREMENT=100

原创 2018-06-28 17:50:56 · 23732 阅读 · 0 评论
解决MySQL中datetime类型的数据插入显示为0

datetime类型格式为年-月-日时:分:秒插入日期时必须将日期加上引号不然插入结果都为0

原创 2018-06-28 18:15:28 · 8083 阅读 · 0 评论
MySQL中的timestamp类型，time类型，date类型，datetime类型

1、time类型创建：create table t1 (t time);增加该类型字段：alter table t1 add t time;添加值：insert into t1 (t) values('2018-6-28');格式为：年-月-日2、date类型创建： create table d1 (d date);增加该类型字段：alter table d1 add d date;添加值：ins...

原创 2018-06-28 20:35:11 · 397 阅读 · 0 评论
hadoop集群namenode无法启动

1、查看/etc/hosts 该文件中的域名映射主节点必须为外网IP 获取外网IP 输入ifconfig2、之前搭建后重新搭建需要删除3、如果上述修改还不行，可以查看日志文件很多人说查看日志文件，但对于我这个新手还是弄了半天，才搞明白，怎么查看（1）首先，日志文件存放的位置 ...

原创 2018-07-04 19:33:07 · 346 阅读 · 0 评论
Application state is completed. FinalApplicationStatus=FAILED. Redirecting to job history server

解决：启动historyserver进程mr-jobhistory-daemon.sh start historyserver

原创 2018-07-06 17:47:32 · 1471 阅读 · 0 评论
hadoop集群子节点的所有进程都起来了，网页上显示子节点为0

查看子节点的/etc/hosts文件中的映射，一一核对，因为映射写错了，子节点无法和主节点之间进行通信进行映射时最好复制IP防止出错

原创 2018-07-31 20:55:11 · 1242 阅读 · 0 评论
kafka（java客户端）消费者取不到消息，生产者消息也没发送成功

问题背景：在服务器上进行kafka的消费和订阅正常运行，通过客户端无法进行发布，订阅，或者消费消息不全解决：在客户端上将zookeeper所有节点的IP进行映射...

原创 2018-08-09 20:37:24 · 2109 阅读 · 0 评论
Call exception, tries=14, retries=35, started=152917 ms ago, cancelled=false, msg=

问题：使用eclipse操作hbase数据库进行DDL操作，报出上述错误解决：在本机的C:\Windows\System32\drivers\etc目录下，将服务器的IP进行映射如果修改后不能保存，需要更改该文件的权限方法如下...

原创 2018-08-01 11:12:02 · 6851 阅读 · 4 评论
java - HBase configuration not found using key 'null'

背景：通过java编写将数据从kafka中输入到storm中处理后输出到hbase中错误：java - HBase configuration not found using key 'null'原因：没有将设置的hbase配置文件与创建的hbaseBolt进行关联...

原创 2018-08-10 17:02:56 · 547 阅读 · 0 评论
NameNode is still loading. Redirecting to the Startup Progress page.

解决办法：(1)通过IP进行访问例如：123456：aa123456---------------------外网IPaa----------------------------本地映射通过 http://123456:50070进行访问 (2)删除浏览器的历史记录原因：未解 ...

原创 2018-08-02 17:54:53 · 1305 阅读 · 0 评论
启动kafka秒退

原因：（1）未启动zookeeper，kafka需要zookeeper进行协调，必须先启动zookeeper （2） kafka需要大量内存，磁盘内存不足，kafka无法启动，默认启动为1G解决：（1）free -h 查看内存使用率如果free不够1G，就需要更改kafka启动参数（2）进到kafka的bin目录下修改kafka-server-start.sh 文件...

原创 2018-08-11 23:08:15 · 7307 阅读 · 1 评论
启动spark，master正常启动，worker无法启动

查看worker节点上日志信息，如果报下述错误：Service 'sparkWorker' could not bind on a random free port. You may check whether configuring an appropriate binding address.解决的方法：在spark-env.sh中加入一条 SPARK_LOCAL_IP=12...

原创 2018-08-21 23:58:39 · 3875 阅读 · 2 评论
Python爬虫之——爬取全国省市对应信息

表链接https://pan.baidu.com/s/14ywiV2aOAJwJIpPJvJ0jbA源码：（粘贴可用）import reimport requestsdef getCity(num): province = '' city = '' url = 'http://www.maps7.com/china_province.php' ...

原创 2018-11-13 16:16:12 · 3272 阅读 · 0 评论
MySQL导入导出数据

导出数据：1.创建一个目录，如:/2018，修改目录属主为mysql:mysql2.select * from zty1.STUDENT INTO OUTFILE '/2018/1.txt' fields terminated by ',' lines terminated by '\n';导入数据load data local infile '/root/mysql.txt' into tabl...

转载 2018-06-27 20:18:56 · 81 阅读 · 0 评论
MySQL查询语句运行顺序，即表之间的连接查询

表table1内容：表table2内容： 1，左外连接（右外同理）SELECT t2.id,t2.name,t1.id,t1.name,t1.salary FROM table2 t2 LEFT JOIN table1 t1 ON t2.id=t1.dept_id;语法：被连接的表名别名 left join 连接的表名别名 on 过滤条件2、内连接SELECT t2.id,t2.name,t...

原创 2018-06-27 19:23:16 · 1697 阅读 · 0 评论
hadoop二级排序,任务能正常跑完,但part-r-0000文件为空

解决思路:1,查看日志发现map端有数据数据,并且也被reduce端接收,但并没有输出2,将debug达到reduce端中查看发现reduce端中接收的数据如下传入的键值对为空,猜测是不是Map端并没有输出,3,将断点达到Map的输出点,重新debug结果为:发现在此处Map已经将结果输出,但reduce端并没有接收4,那就是他们的中间传递出现问题,查看了自定义数据类型的类(即进行二次排序的类),...

原创 2018-06-13 14:36:00 · 3919 阅读 · 4 评论
java.lang.Exception: java.io.IOException: Could not rename file:解决办法

HAOOP进行mapre任务时,需要多目录输出,报出:java.lang.Exception: java.io.IOException: Could not rename file:********* to**********原因是没有将多目录输出对象关闭处理办法:在reduce端重写的cleanup()方法中将其关闭...

原创 2018-06-14 11:48:43 · 5540 阅读 · 0 评论
: Call From ACER-PC/192.168.0.104 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectE

在mapred-site.xml配置文件中添加以下两个属性 <property> <name>mapreduce.jobhistory.address</name> <value>主节点IP（或者映射后的名称）:10020</value> </property> <property> &amp

原创 2018-06-22 11:13:10 · 1351 阅读 · 0 评论
草图之----HDFS读写原理

-----------------------------------------------话不多说先上个草图---------------------------------------------- （1） HDFS的结构：主节点（NameNode） ...

原创 2018-06-14 16:17:41 · 729 阅读 · 0 评论
{{PWD}}<CPS>{{HADOOP_CONF_DIR}}<CPS>{{HADOOP_COMMON_HOME}}/share/hadoop/common/*<CPS>{{HADOOP_COMMON

集群跑mr依赖组合前两个正常运行，最后一个job总失败修改位置：1、字典表路径必须为文件路径（*/part-r-00000）； 2、前后路径保持一致（我的job2的路径为（midPath+"/sate"）,job3的写成（midPath+"sate"）,少了“/”）最好复制粘贴 ...

原创 2018-06-22 18:00:52 · 289 阅读 · 0 评论
MapReduce全局排序细节

一、概念全局排序是通过将进入map端之前的数据进行随机采样，在采取的样本中设置分割点，通过分割点将数据进行分区二、原理将设置的分割点保存在二叉树中，Map Task 每输出一个数据就会去查找其对应的区间，以此来达到分区效果三、易忘点（1）全局排序处理的文件内容key----value按照TAB键分割的（例如k v）;（2）Mapper函数的输入数据类型为Tex...

原创 2018-06-15 10:02:42 · 1631 阅读 · 0 评论
草图之------HADOOP中的Shuffle原理

Shuffle本意为洗牌，HADOOP 中意为将数据进行整理（核心机制：对数据进行分区，排序，缓存）--------------------------------------------小二上草图-----------------------------------------------------------客官：此图如此之草小二：大爷，路就是这么走，详情听我慢慢道来客官：速度，简单，大爷以...

原创 2018-06-15 10:12:24 · 3949 阅读 · 1 评论
expect脚本连接远程终端思路

1，创建vim文本编辑器；vim text.expect2，编辑脚本内容（1）#！/usr/bin/expect #约定标记，告诉系统该脚本使用的解析器（2）set timeout 5 #设置超时时间，单位为秒，默认为10s （3）set username [ lindex $a...

原创 2018-06-15 18:54:31 · 444 阅读 · 0 评论
MapReduce三种分区方法

何时分区当map函数输出数据到循环内存缓冲区，数据达到循环内存缓冲区的阀值时，会将数据溢写到文件中，在写入文件之前会对数据进行分区分区分类及如何实现第一种：默认分区系统自动调用HashPartitioner类进行分区，原码如下：该类通过继承Partitioner类实现分区，将key的哈希值与integer的最大值做&运算，并%1来设置分区第二种：自定义分区第三种：全...

原创 2018-06-16 18:13:41 · 4032 阅读 · 0 评论
HDFS架构原则分析

1、元数据与数据分离在HDFS 中存放数据时，文件本身的属性是存放在NameNode节点上，而文件所持有的数据是存放在DataNode节点上，这样可以对大量的数据进行一个统一的管理2、master/salve架构（主从架构）一个HDFS集群由一个NameNode节点和一定数目的DataNode节点组成3、移动计算比移动数据更划算 ...

原创 2018-06-16 21:30:53 · 246 阅读 · 0 评论
数据库备份、还原，数据的导出、导入

数据库的备份、还原1、备份：在MySQL下进行mysqldump -h localhost -u root -p123456 wjn>/root/wjn.sql;root----------------用户名123456--------------密码wjn-----------------需要备份的数据库名/root/wjn.sql-------备份文件的位置2、还原：在MySQL下进行s...

原创 2018-06-29 11:42:40 · 488 阅读 · 0 评论
mysql事务详解

1、什么是事务用户访问数据库时，数据库会为用户开启一个进程，用户可以通过这个进程对数据库进行增、删、改、查的操作，这个进程就称为事务。2、事务的特性（1）原子性：指事务是一个不可分割的工作单位，事务中的操作要么都发生，要么都不发生（例如：在一个事务中，对t1表添加一个数据，并对t2表删除一个数据，这两步操作要么都成功，要么都不成功，不会只运行一个，另一个失败）（2）一致性：指事务的操作使数据...

原创 2018-06-30 23:11:34 · 165 阅读 · 0 评论
/bin/bash: line 0: fg: no job control简单解决办法

出现该错误是eclipse的版本过高办法：进入window---Preferences----java-----Compiler

原创 2018-06-19 17:51:14 · 3822 阅读 · 0 评论
MYSQL更改事务隔离级别仍旧出现脏读

可能原因：没有更改表格的存储引擎默认为MYISAM该引擎不支持外键，事务方法：将引擎更改为INNODB ALTER TABLE 表名 ENGINE=INNODB;

原创 2018-06-26 18:44:13 · 227 阅读 · 0 评论
mysql 如何将一个结果嵌套成一个表

事务：指对数据库中的数据进行操作的过程事务的特性： 1、原子性：指事务是一个不可分割的单位，事务中进行的操作要么都发生，要么都不发生 2、一致性：事务操作数据库bixu...

原创 2018-06-27 10:01:28 · 953 阅读 · 0 评论
Python爬虫之——爬去湖北所有网吧名和位置信息（附爬去数据表）

表链接 https://pan.baidu.com/s/1ZDmSqRoJTNyG8YvTRVnhpw源码import requestsimport re# 获取网吧信息def getWB(url,head,city_name):page = requests.get(url,head)html = page.textwb_name = re.findall('<li...

原创 2018-11-13 16:09:26 · 1700 阅读 · 2 评论

大数据

作者: 笔记本做笔记

java.lang.RuntimeException: java.lang.NoSuchMethodException ......<init>()

Variable or condition declaration after cursor or handler declaration

MySQL创建自增字段，并设置初始值

解决MySQL中datetime类型的数据插入显示为0

MySQL中的timestamp类型，time类型，date类型，datetime类型

hadoop集群namenode无法启动

Application state is completed. FinalApplicationStatus=FAILED. Redirecting to job history server

hadoop集群子节点的所有进程都起来了，网页上显示子节点为0

kafka（java客户端）消费者取不到消息，生产者消息也没发送成功

Call exception, tries=14, retries=35, started=152917 ms ago, cancelled=false, msg=

java - HBase configuration not found using key 'null'

NameNode is still loading. Redirecting to the Startup Progress page.

启动kafka秒退

启动spark，master正常启动，worker无法启动

Python爬虫之——爬取全国省市对应信息

MySQL导入导出数据

MySQL查询语句运行顺序，即表之间的连接查询

hadoop二级排序,任务能正常跑完,但part-r-0000文件为空

java.lang.Exception: java.io.IOException: Could not rename file:解决办法

: Call From ACER-PC/192.168.0.104 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectE

草图之----HDFS读写原理

{{PWD}}<CPS>{{HADOOP_CONF_DIR}}<CPS>{{HADOOP_COMMON_HOME}}/share/hadoop/common/*<CPS>{{HADOOP_COMMON

MapReduce全局排序细节

草图之------HADOOP中的Shuffle原理

expect脚本连接远程终端思路

MapReduce三种分区方法

HDFS架构原则分析

数据库备份、还原，数据的导出、导入

mysql事务详解

/bin/bash: line 0: fg: no job control简单解决办法

MYSQL更改事务隔离级别仍旧出现脏读

mysql 如何将一个结果嵌套成一个表

Python爬虫之——爬去湖北所有网吧名和位置信息（附爬去数据表）