自封的羽球大佬-CSDN博客

原创启动Hadoop时遇到的Incorrect configuration问题

问题描述：Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured（配置异常问题）解决：进入Hadoop根目录的etc/hadoop/core-site.xml，添加以下配置：<property...

2019-03-15 17:23:26 2226 1

原创 Linux下网络连接不上的问题

问题表现：1、ping命令出现name or service not known2、ifconfig命令出现如下图示：解决之道：/sbin/dhclient直接运行此命令可以立即获取新的IP地址。...

2019-03-15 10:21:10 2444 2

原创也谈JOIN在MySQL和Hive中的表现

这几天参加面试，碰到了很多join题，特此总结下。总体上，join在mysql和hive中的使用差别不大，但若细究区别还是有的。I.首先来看看mysql：1、笛卡儿积(cross join)在MySQL中，当不指定on的条件时，inner join(或称join)和cross join(笛卡儿积)的执行效果一样，都是两个表的乘积。若指定了on的条件，则inner ...

2018-09-29 00:15:58 1004

原创 Hadoop杂说

也接触Hadoop好长时间了，一直想写篇关于Hadoop的博文，看来今天倒是挺不错，动动笔喽。I.版本杂说：Hadoop现在已经有了2.0版本，那么相比1.0版本，Hadoop确实解决了一些比较棘手的问题：1、单点故障问题。由于1.0版本的NameNode只有一个，所以一旦部署NameNode的机器宕掉，整个集群就会瘫痪。所以，2.0版本增加了Secondary NameNode，它相...

2018-09-22 21:00:22 313

原创园林艺术之二叉树

这篇博文主要想分享一下我对二叉树的思考，总结的不足的地方还请大家补充。1、二叉搜索树(BST)：二叉搜索树是二叉树里面最基础的数据结构，也可以看作是最原始的二叉树，具体概念我就不赘述了。我认为它有以下几个特点：不可控性，它的生长方向完全取决于所给的数据，极端情况下，它可能会变成只有左子树或只有右子树的链表结构。树高问题，当数据量很大时，它可能会长得很高，这样会使查询变得特别慢。 ...

2018-09-12 15:44:51 196

原创 Unknown system variable 'query_cache_size' |（记几个ETL工具kettle的使用问题）

问题1：Unknown system variable 'query_cache_size'解决过程：对于这个问题，我一直以为是我的MySQL数据库数据驱动的问题，所以，我下载了各种版本的mysql-connector-java-5.x.x-bin.jar和mysql-connector-java-x.x.x.jar文件，这时候配置数据库连接后点击“测试”显示正常连接，但点击“浏览”后就会...

2018-09-08 23:35:01 3633

原创 error: 'Can't connect to MySQL server on 'localhost' (10061)' | [Windows下碰到的几个MySQL的小坑]

没试过Windows下的MySQL，今天特地下载试试，结果跌了一跤：略显尴尬，我抱着试一试的态度，又敲了mysql -uroot -p ，结果更尴尬：默默的猜想，到底什么问题？最后得出答案，只能是服务器问题，很显然从前面的报错也可以看出来服务器没起来，所以把问题锁定在服务器的启动问题上。紧接着，发现应该是服务器没初始化，便执行了以下初始化命令：mysqld --in...

2018-09-06 19:09:22 288

原创 Sublime Text 3中碰到的几个坑

1、Sublime Text 3中FileNotFoundError(2,系统找不到制定的文件，None 2)，解决如下：找到Preferences>Package Settings>SublimeREPL>Settings-User,点击进去，将如下内容写入并保存。{ "default_extend_env": {"PATH":"C:\\Python27"}, }...

2018-09-03 14:34:20 1823 2

原创 man/ja: Cannot create symlink to ‘ja_JP.UTF-8’: File exists ( FineBI在linux下安装时报错 )

错误描述： Unpacking JRE ...tar: man/ja: Cannot create symlink to ‘ja_JP.UTF-8’: File existstar: Exiting with failure status due to previous errors//后面还有很多，这里不写了 ...

2018-09-01 23:33:52 2053

原创谈谈hive的order by ，sort by ，distribute by 和 cluster by

总说：笼统地看，这四个在hive中都有排序和聚集的作用，然而，它们在执行时所启动的MR却各不相同。细讲：order by：order by会对所给的全部数据进行全局排序，并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样，不管来多少数据，都只启动一个reducer来处理。因此，数据量小还可以，但数据量一旦变大order by就会变得异常吃力，甚至“罢工”。sort ...

2018-08-29 22:26:28 26773 6

原创 scrapy爬虫之SyntaxError: can't assign to literal

问题描述：当执行scrapy crawl tutu时，报出如下错误：[root@Uu tutu]# scrapy crawl tutuTraceback (most recent call last): File "/usr/bin/scrapy", line 11, in <module> sys.exit(execute()) File "/usr/li...

2018-08-28 22:41:07 15214

原创关于解决Unhandled error in Deferred或提示NameError: name 'xxPipeline' is not defined

问题描述：解决Unhandled error in Deferred或提示NameError: name 'xxPipeline' is not defined，错误描述如下：[root@Uu tutu]# scrapy crawl tutu2018-08-26 18:18:12 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: t...

2018-08-28 22:24:46 4802 1

原创 ImportError: cannot import name xx (scrapy爬虫之xx_spider.py和xxItem.py文件中import出错的问题)

问题描述：ImportError：“ImportError: cannot import name jianshuItem”[root@Uu jianshu]# scrapy crawl jianshuTraceback (most recent call last): File "/usr/bin/scrapy", line 11, in <module> s...

2018-08-28 22:05:00 4238 1

原创 Scrapy爬虫之中文乱码问题

问题描述：I.#这是.csv格式的文件，有中文乱码现象。[root@Uu jianshu]# cat jianshu.csv url,title,authorhttp://www.jianshu.com/p/2a7a594816e1,彖浣犳村?鏍?[root@Uu jianshu]# ...

2018-08-28 21:29:17 9686 3

原创 [scrapy.spidermiddlewares.httperror] INFO: Ignoring respons 403...HTTP status code is not handled..

分享一下这几天玩爬虫碰到的坑。因为初学，所以边看书，边看别人的实例，本想照着别人的先搞出个小名堂，不料深陷403泥潭。我用的是scrapy框架，具体报错如下：[root@Uu tutorial]# scrapy crawl dmoz -o torrents.jl2018-08-23 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 start...

2018-08-23 23:18:50 7975 1

原创 NLJ和BNLJ之JOIN底层算法

Nested Loop Join （NLJ）算法:NLJ，顾名思义，是指嵌套循环算法，my.oschina.net 上面有一段代码对NLJ做出了说明：for each row in t1 matching range { //外层循环 for each row in t2 matching reference key { //次内层循环 ...

2018-08-19 19:15:36 5005 1

原创浅谈mysql之索引

说是浅谈，其实就是东拉西扯点儿mysql优化方面的东西罢了。下面来共同学习一下：1 ，当select时用到like模糊查询，如like '%name' ,mysql是不走索引的，而当使用like 'name%' ,即把‘%’放到要查询内容的后面就可以用到索引。2 ，查询条件中要是有or，则不会走索引。3 ，对于多列索引，若用的不是最左侧的索引，整个查询也就不走索引（最左原则）。...

2018-08-18 19:49:13 181

原创思考：mysql数据类型后括号中数字的含义，如int(5),char(7)

疑惑点：疑惑1：括号中的数字指的是字节还是字符？疑惑2：什么是字节，什么是字符？解惑：对于疑惑1：解答：括号中的数字指的是字符。比如，num int(5)就是指字段num在显示时能显示的最小长度是5，而不是指数据长度是5。通俗的说就是，在显示时能显示的最短字符个数是5个，再通俗一点的说，就是你想让字段num在显示时显示5个长度的字符数。而mysql的int默认...

2018-08-17 15:44:37 5907

原创 mysql字段后面的not null 到底要不要写

声明：参考自为什么mysql字段要设置为not null? 写在开头：经过一段时间的探索（填坑），我发现频繁使用null会导致索引，查询，代码的规范性等方面变得很糟。我想说的是：在MYSQL官方有一段对NULL的解释：“NULL columns require additional space in the row to record whether their valu...

2018-08-14 22:48:17 1783

原创对hive二进制存储格式,即SequenceFile和RCFile的思考总结

1. SequenceFile是面向行，RCFile是面向列。2. TextFile，SequenceFile，RCFile是hive常用的三种存储格式。其中，TextFile是hive默认的存储格式，SequenceFile和RCFile是二进制存储格式。3. 相比于TextFile，SequenceFile和RCFile支持压缩，文件压缩后上传到HDFS上，下载后不支持直接查看，故所占...

2018-08-12 11:19:54 2494

原创用maven创建项目，当执行到Choose a number or apply filter :敲入回车后不出现list的问题

问题描述：用maven创建项目，敲入mvn archetype:generate，当执行到Choose a number or apply filter (format: [groupId:]artifactId, case sensitive contains):等待输入时，按下回车，本应出现list，但却循环执行前面的一段的问题。解决方案：将maven的conf目录下的...

2018-08-02 12:38:23 7765 1

原创 Hbase的分布式存储中拆分工具split的拆分界限问题

总说：拆分工具split在拆分时，会在splitPoint遵循左包含，右不包含（即就是[ )）的规则。细说：例如：STARTKEY => '' , ENDKEY => '\x00\x00\xA1\xB1'（不被包含），假设拆分为两部分，这样的话，在拆分时，上一部分就不会包含\x00\x00\xA1\xB1，而这一部分的数据则会被包含在拆分的下一部分里面，即就是下一部分为STA...

2018-07-30 23:16:23 289

自封的羽球大佬