大数据
笔记本做笔记
这个作者很懒,什么都没留下…
展开
-
java.lang.RuntimeException: java.lang.NoSuchMethodException ......<init>()
运行job任务中存在自定义参数类型(即实现了WritableComparable接口的类)控制台会报出:java.lang.RuntimeException: java.lang.NoSuchMethodException ......<init>() 处理办法: 1.在自定义参数类型的类中添加空参的构造器, 2.并在空参构造器中将类中的属性进行初始化(即添加this.属性...原创 2018-06-12 17:32:42 · 3512 阅读 · 0 评论 -
Variable or condition declaration after cursor or handler declaration
使用MySQL创建游标错误代码更改后原创 2018-06-28 12:00:52 · 5209 阅读 · 2 评论 -
MySQL创建自增字段,并设置初始值
创建自增字段create table table_name (id INT AUTO_INCREMENT PRIMARY KEY );更改初始值alter table table_name AUTO_INCREMENT=100原创 2018-06-28 17:50:56 · 23732 阅读 · 0 评论 -
解决MySQL中datetime类型的数据插入显示为0
datetime类型格式为 年-月-日 时:分:秒插入日期时必须将日期加上引号不然插入结果都为0原创 2018-06-28 18:15:28 · 8083 阅读 · 0 评论 -
MySQL中的timestamp类型,time类型,date类型,datetime类型
1、time类型创建:create table t1 (t time);增加该类型字段:alter table t1 add t time;添加值:insert into t1 (t) values('2018-6-28');格式为:年-月-日2、date类型创建: create table d1 (d date);增加该类型字段:alter table d1 add d date;添加值:ins...原创 2018-06-28 20:35:11 · 397 阅读 · 0 评论 -
hadoop集群namenode无法启动
1、查看/etc/hosts 该文件中的域名映射主节点必须为外网IP 获取外网IP 输入ifconfig2、之前搭建后重新搭建需要删除3、如果上述修改还不行,可以查看日志文件很多人说查看日志文件,但对于我这个新手还是弄了半天,才搞明白,怎么查看(1)首先,日志文件存放的位置 ...原创 2018-07-04 19:33:07 · 346 阅读 · 0 评论 -
Application state is completed. FinalApplicationStatus=FAILED. Redirecting to job history server
解决:启动historyserver进程mr-jobhistory-daemon.sh start historyserver原创 2018-07-06 17:47:32 · 1471 阅读 · 0 评论 -
hadoop集群子节点的所有进程都起来了,网页上显示子节点为0
查看子节点的/etc/hosts文件中的映射,一一核对,因为映射写错了,子节点无法和主节点之间进行通信进行映射时最好复制IP防止出错原创 2018-07-31 20:55:11 · 1242 阅读 · 0 评论 -
kafka(java客户端)消费者取不到消息,生产者消息也没发送成功
问题背景:在服务器上进行kafka的消费和订阅正常运行,通过客户端无法进行发布,订阅,或者消费消息不全解决:在客户端上将zookeeper所有节点的IP进行映射...原创 2018-08-09 20:37:24 · 2109 阅读 · 0 评论 -
Call exception, tries=14, retries=35, started=152917 ms ago, cancelled=false, msg=
问题:使用eclipse操作hbase数据库进行DDL操作,报出上述错误解决:在本机的C:\Windows\System32\drivers\etc目录下,将服务器的IP进行映射如果修改后不能保存,需要更改该文件的权限方法如下...原创 2018-08-01 11:12:02 · 6851 阅读 · 4 评论 -
java - HBase configuration not found using key 'null'
背景:通过java编写将数据从kafka中输入到storm中处理后输出到hbase中错误:java - HBase configuration not found using key 'null'原因:没有将设置的hbase配置文件与创建的hbaseBolt进行关联...原创 2018-08-10 17:02:56 · 547 阅读 · 0 评论 -
NameNode is still loading. Redirecting to the Startup Progress page.
解决办法:(1)通过IP进行访问例如:123456:aa123456---------------------外网IPaa----------------------------本地映射通过 http://123456:50070进行访问 (2)删除浏览器的历史记录原因:未解 ...原创 2018-08-02 17:54:53 · 1305 阅读 · 0 评论 -
启动kafka秒退
原因:(1)未启动zookeeper,kafka需要zookeeper进行协调,必须先启动zookeeper (2) kafka需要大量内存,磁盘内存不足,kafka无法启动,默认启动为1G解决:(1)free -h 查看内存使用率如果free不够1G,就需要更改kafka启动参数(2)进到kafka的bin目录下修改kafka-server-start.sh 文件...原创 2018-08-11 23:08:15 · 7307 阅读 · 1 评论 -
启动spark,master正常启动,worker无法启动
查看worker节点上日志信息,如果报下述错误:Service 'sparkWorker' could not bind on a random free port. You may check whether configuring an appropriate binding address.解决的方法:在spark-env.sh中加入一条 SPARK_LOCAL_IP=12...原创 2018-08-21 23:58:39 · 3875 阅读 · 2 评论 -
Python爬虫之——爬取全国省市对应信息
表链接https://pan.baidu.com/s/14ywiV2aOAJwJIpPJvJ0jbA源码:(粘贴可用)import reimport requestsdef getCity(num): province = '' city = '' url = 'http://www.maps7.com/china_province.php' ...原创 2018-11-13 16:16:12 · 3272 阅读 · 0 评论 -
MySQL导入导出数据
导出数据:1.创建一个目录,如:/2018,修改目录属主为mysql:mysql2.select * from zty1.STUDENT INTO OUTFILE '/2018/1.txt' fields terminated by ',' lines terminated by '\n';导入数据load data local infile '/root/mysql.txt' into tabl...转载 2018-06-27 20:18:56 · 81 阅读 · 0 评论 -
MySQL查询语句运行顺序,即表之间的连接查询
表table1内容: 表table2内容: 1,左外连接(右外同理)SELECT t2.id,t2.name,t1.id,t1.name,t1.salary FROM table2 t2 LEFT JOIN table1 t1 ON t2.id=t1.dept_id;语法:被连接的表名 别名 left join 连接的表名 别名 on 过滤条件2、内连接SELECT t2.id,t2.name,t...原创 2018-06-27 19:23:16 · 1697 阅读 · 0 评论 -
hadoop二级排序,任务能正常跑完,但part-r-0000文件为空
解决思路:1,查看日志发现map端有数据数据,并且也被reduce端接收,但并没有输出2,将debug达到reduce端中查看发现reduce端中接收的数据如下传入的键值对为空,猜测是不是Map端并没有输出,3,将断点达到Map的输出点,重新debug结果为:发现在此处Map已经将结果输出,但reduce端并没有接收4,那就是他们的中间传递出现问题,查看了自定义数据类型的类(即进行二次排序的类),...原创 2018-06-13 14:36:00 · 3919 阅读 · 4 评论 -
java.lang.Exception: java.io.IOException: Could not rename file:解决办法
HAOOP进行mapre任务时,需要多目录输出,报出:java.lang.Exception: java.io.IOException: Could not rename file:********* to**********原因是没有将多目录输出对象关闭处理办法:在reduce端重写的cleanup()方法中将其关闭...原创 2018-06-14 11:48:43 · 5540 阅读 · 0 评论 -
: Call From ACER-PC/192.168.0.104 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectE
在mapred-site.xml配置文件中添加以下两个属性 <property> <name>mapreduce.jobhistory.address</name> <value>主节点IP(或者映射后的名称):10020</value> </property> <property> &原创 2018-06-22 11:13:10 · 1351 阅读 · 0 评论 -
草图之----HDFS读写原理
-----------------------------------------------话不多说先上个草图---------------------------------------------- (1) HDFS的结构: 主节点(NameNode) ...原创 2018-06-14 16:17:41 · 729 阅读 · 0 评论 -
{{PWD}}<CPS>{{HADOOP_CONF_DIR}}<CPS>{{HADOOP_COMMON_HOME}}/share/hadoop/common/*<CPS>{{HADOOP_COMMON
集群跑mr依赖组合前两个正常运行,最后一个job总失败修改位置:1、字典表路径必须为文件路径(*/part-r-00000); 2、前后路径保持一致(我的job2的路径为(midPath+"/sate"),job3的写成(midPath+"sate"),少了“/”) 最好复制粘贴 ...原创 2018-06-22 18:00:52 · 289 阅读 · 0 评论 -
MapReduce全局排序细节
一、概念 全局排序是通过将进入map端之前的数据进行随机采样,在采取的样本中设置分割点,通过分割点将数据进行分区二、原理 将设置的分割点保存在二叉树中,Map Task 每输出一个数据就会去查找其对应的区间,以此来达到分区效果三、易忘点(1)全局排序处理的文件内容key----value按照TAB键分割的(例如k v);(2)Mapper函数的输入数据类型为Tex...原创 2018-06-15 10:02:42 · 1631 阅读 · 0 评论 -
草图之------HADOOP中的Shuffle原理
Shuffle本意为洗牌,HADOOP 中意为将数据进行整理(核心机制:对数据进行分区,排序,缓存)--------------------------------------------小二上草图-----------------------------------------------------------客官:此图如此之草小二:大爷,路就是这么走,详情听我慢慢道来客官:速度,简单,大爷以...原创 2018-06-15 10:12:24 · 3949 阅读 · 1 评论 -
expect脚本连接远程终端思路
1,创建vim文本编辑器;vim text.expect2,编辑脚本内容 (1)#!/usr/bin/expect #约定标记,告诉系统该脚本使用的解析器 (2)set timeout 5 #设置超时时间,单位为秒,默认为10s (3)set username [ lindex $a...原创 2018-06-15 18:54:31 · 444 阅读 · 0 评论 -
MapReduce三种分区方法
何时分区当map函数输出数据到循环内存缓冲区,数据达到循环内存缓冲区的阀值时,会将数据溢写到文件中,在写入文件之前会对数据进行分区分区分类及如何实现第一种:默认分区 系统自动调用HashPartitioner类进行分区,原码如下:该类通过继承Partitioner类实现分区,将key的哈希值与integer的最大值做&运算,并%1来设置分区第二种:自定义分区第三种:全...原创 2018-06-16 18:13:41 · 4032 阅读 · 0 评论 -
HDFS架构原则分析
1、元数据与数据分离 在HDFS 中存放数据时,文件本身的属性是存放在NameNode节点上,而文件所持有的数据是存放在DataNode节点上,这样可以对大量的数据进行一个统一的管理2、master/salve架构(主从架构) 一个HDFS集群由一个NameNode节点和一定数目的DataNode节点组成3、移动计算比移动数据更划算 ...原创 2018-06-16 21:30:53 · 246 阅读 · 0 评论 -
数据库备份、还原,数据的导出、导入
数据库的备份、还原1、备份:在MySQL下进行mysqldump -h localhost -u root -p123456 wjn>/root/wjn.sql;root----------------用户名123456--------------密码wjn-----------------需要备份的数据库名/root/wjn.sql-------备份文件的位置2、还原:在MySQL下进行s...原创 2018-06-29 11:42:40 · 488 阅读 · 0 评论 -
mysql事务详解
1、什么是事务用户访问数据库时,数据库会为用户开启一个进程,用户可以通过这个进程对数据库进行增、删、改、查的操作,这个进程就称为事务。2、事务的特性(1)原子性: 指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生(例如:在一个事务中,对t1表添加一个数据,并对t2表删除一个数据,这两步操作要么都成功,要么都不成功,不会只运行一个,另一个失败)(2)一致性:指事务的操作使数据...原创 2018-06-30 23:11:34 · 165 阅读 · 0 评论 -
/bin/bash: line 0: fg: no job control简单解决办法
出现该错误是eclipse的版本过高办法:进入window---Preferences----java-----Compiler原创 2018-06-19 17:51:14 · 3822 阅读 · 0 评论 -
MYSQL更改事务隔离级别仍旧出现脏读
可能原因:没有更改表格的存储引擎 默认为MYISAM该引擎不支持外键,事务 方法: 将引擎更改为INNODB ALTER TABLE 表名 ENGINE=INNODB;原创 2018-06-26 18:44:13 · 227 阅读 · 0 评论 -
mysql 如何将一个结果嵌套成一个表
事务:指对数据库中的数据进行操作的过程事务的特性: 1、原子性:指事务是一个不可分割的单位,事务中进行的操作要么都发生,要么都不发生 2、一致性:事务操作数据库bixu...原创 2018-06-27 10:01:28 · 953 阅读 · 0 评论 -
Python爬虫之——爬去湖北所有网吧名和位置信息(附爬去数据表)
表链接 https://pan.baidu.com/s/1ZDmSqRoJTNyG8YvTRVnhpw源码import requestsimport re# 获取网吧信息def getWB(url,head,city_name):page = requests.get(url,head)html = page.textwb_name = re.findall('<li...原创 2018-11-13 16:09:26 · 1700 阅读 · 2 评论