- 博客(22)
- 资源 (2)
- 收藏
- 关注
原创 启动Hadoop时遇到的Incorrect configuration问题
问题描述:Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured(配置异常问题)解决:进入Hadoop根目录的etc/hadoop/core-site.xml,添加以下配置:<property...
2019-03-15 17:23:26 2226 1
原创 Linux下网络连接不上的问题
问题表现:1、ping命令出现name or service not known2、ifconfig命令出现如下图示:解决之道:/sbin/dhclient直接运行此命令可以立即获取新的IP地址。...
2019-03-15 10:21:10 2444 2
原创 也谈JOIN在MySQL和Hive中的表现
这几天参加面试,碰到了很多join题,特此总结下。总体上,join在mysql和hive中的使用差别不大,但若细究区别还是有的。I.首先来看看mysql:1、笛卡儿积(cross join)在MySQL中,当不指定on的条件时,inner join(或称join)和cross join(笛卡儿积)的执行效果一样,都是两个表的乘积。若指定了on的条件,则inner ...
2018-09-29 00:15:58 1004
原创 Hadoop杂说
也接触Hadoop好长时间了,一直想写篇关于Hadoop的博文,看来今天倒是挺不错,动动笔喽。I.版本杂说:Hadoop现在已经有了2.0版本,那么相比1.0版本,Hadoop确实解决了一些比较棘手的问题:1、单点故障问题。由于1.0版本的NameNode只有一个,所以一旦部署NameNode的机器宕掉,整个集群就会瘫痪。所以,2.0版本增加了Secondary NameNode,它相...
2018-09-22 21:00:22 313
原创 园林艺术 之 二叉树
这篇博文主要想分享一下我对二叉树的思考,总结的不足的地方还请大家补充。1、二叉搜索树(BST):二叉搜索树是二叉树里面最基础的数据结构,也可以看作是最原始的二叉树,具体概念我就不赘述了。我认为它有以下几个特点:不可控性,它的生长方向完全取决于所给的数据,极端情况下,它可能会变成只有左子树或只有右子树的链表结构。 树高问题,当数据量很大时,它可能会长得很高,这样会使查询变得特别慢。 ...
2018-09-12 15:44:51 196
原创 Unknown system variable 'query_cache_size' |(记几个ETL工具kettle的使用问题)
问题1:Unknown system variable 'query_cache_size'解决过程:对于这个问题,我一直以为是我的MySQL数据库数据驱动的问题,所以,我下载了各种版本的mysql-connector-java-5.x.x-bin.jar和mysql-connector-java-x.x.x.jar文件,这时候配置数据库连接后点击“测试”显示正常连接,但点击“浏览”后就会...
2018-09-08 23:35:01 3633
原创 error: 'Can't connect to MySQL server on 'localhost' (10061)' | [Windows下碰到的几个MySQL的小坑]
没试过Windows下的MySQL,今天特地下载试试,结果跌了一跤:略显尴尬,我抱着试一试的态度,又敲了mysql -uroot -p ,结果更尴尬:默默的猜想,到底什么问题?最后得出答案,只能是服务器问题,很显然从前面的报错也可以看出来服务器没起来,所以把问题锁定在服务器的启动问题上。紧接着,发现应该是服务器没初始化,便执行了以下初始化命令:mysqld --in...
2018-09-06 19:09:22 288
原创 Sublime Text 3中碰到的几个坑
1、Sublime Text 3中FileNotFoundError(2,系统找不到制定的文件,None 2),解决如下:找到Preferences>Package Settings>SublimeREPL>Settings-User,点击进去,将如下内容写入并保存。{ "default_extend_env": {"PATH":"C:\\Python27"}, }...
2018-09-03 14:34:20 1823 2
原创 man/ja: Cannot create symlink to ‘ja_JP.UTF-8’: File exists ( FineBI在linux下安装时报错 )
错误描述: Unpacking JRE ...tar: man/ja: Cannot create symlink to ‘ja_JP.UTF-8’: File existstar: Exiting with failure status due to previous errors//后面还有很多,这里不写了 ...
2018-09-01 23:33:52 2053
原创 谈谈hive的order by ,sort by ,distribute by 和 cluster by
总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。细讲:order by:order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小还可以,但数据量一旦变大order by就会变得异常吃力,甚至“罢工”。sort ...
2018-08-29 22:26:28 26773 6
原创 scrapy爬虫之SyntaxError: can't assign to literal
问题描述:当执行scrapy crawl tutu时,报出如下错误:[root@Uu tutu]# scrapy crawl tutuTraceback (most recent call last): File "/usr/bin/scrapy", line 11, in <module> sys.exit(execute()) File "/usr/li...
2018-08-28 22:41:07 15214
原创 关于解决Unhandled error in Deferred或提示NameError: name 'xxPipeline' is not defined
问题描述:解决Unhandled error in Deferred或提示NameError: name 'xxPipeline' is not defined,错误描述如下:[root@Uu tutu]# scrapy crawl tutu2018-08-26 18:18:12 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: t...
2018-08-28 22:24:46 4802 1
原创 ImportError: cannot import name xx (scrapy爬虫之xx_spider.py和xxItem.py文件中import出错的问题)
问题描述:ImportError:“ImportError: cannot import name jianshuItem”[root@Uu jianshu]# scrapy crawl jianshuTraceback (most recent call last): File "/usr/bin/scrapy", line 11, in <module> s...
2018-08-28 22:05:00 4238 1
原创 Scrapy爬虫之中文乱码问题
问题描述:I.#这是.csv格式的文件,有中文乱码现象。[root@Uu jianshu]# cat jianshu.csv url,title,authorhttp://www.jianshu.com/p/2a7a594816e1,彖浣犳 村?鏍?[root@Uu jianshu]# ...
2018-08-28 21:29:17 9686 3
原创 [scrapy.spidermiddlewares.httperror] INFO: Ignoring respons 403...HTTP status code is not handled..
分享一下这几天玩爬虫碰到的坑。因为初学,所以边看书,边看别人的实例,本想照着别人的先搞出个小名堂,不料深陷403泥潭。我用的是scrapy框架,具体报错如下:[root@Uu tutorial]# scrapy crawl dmoz -o torrents.jl2018-08-23 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 start...
2018-08-23 23:18:50 7975 1
原创 NLJ和BNLJ之JOIN底层算法
Nested Loop Join (NLJ)算法:NLJ,顾名思义,是指嵌套循环算法,my.oschina.net 上面有一段代码对NLJ做出了说明:for each row in t1 matching range { //外层循环 for each row in t2 matching reference key { //次内层循环 ...
2018-08-19 19:15:36 5005 1
原创 浅谈mysql之索引
说是浅谈,其实就是东拉西扯点儿mysql优化方面的东西罢了。下面来共同学习一下:1 ,当select时用到like模糊查询,如like '%name' ,mysql是不走索引的,而当使用like 'name%' ,即把‘%’放到要查询内容的后面就可以用到索引。2 ,查询条件中要是有or,则不会走索引。3 ,对于多列索引,若用的不是最左侧的索引,整个查询也就不走索引(最左原则)。...
2018-08-18 19:49:13 181
原创 思考:mysql数据类型后括号中数字的含义,如int(5),char(7)
疑惑点:疑惑1: 括号中的数字指的是字节还是字符?疑惑2: 什么是字节,什么是字符?解惑:对于疑惑1: 解答:括号中的数字指的是字符。比如,num int(5)就是指字段num在显示时能显示的最小长度是5,而不是指数据长度是5。通俗的说就是,在显示时能显示的最短字符个数是5个,再通俗一点的说,就是你想让字段num在显示时显示5个长度的字符数。而mysql的int默认...
2018-08-17 15:44:37 5907
原创 mysql字段后面的not null 到底要不要写
声明:参考自 为什么mysql字段要设置为not null? 写在开头:经过一段时间的探索(填坑),我发现频繁使用null会导致索引,查询,代码的规范性等方面变得很糟。我想说的是:在MYSQL官方有一段对NULL的解释:“NULL columns require additional space in the row to record whether their valu...
2018-08-14 22:48:17 1783
原创 对hive二进制存储格式,即SequenceFile和RCFile的思考总结
1. SequenceFile是面向行,RCFile是面向列。2. TextFile,SequenceFile,RCFile是hive常用的三种存储格式。其中,TextFile是hive默认的存储格式,SequenceFile和RCFile是二进制存储格式。3. 相比于TextFile,SequenceFile和RCFile支持压缩,文件压缩后上传到HDFS上,下载后不支持直接查看,故所占...
2018-08-12 11:19:54 2494
原创 用maven创建项目,当执行到Choose a number or apply filter :敲入回车后不出现list的问题
问题描述:用maven创建项目,敲入mvn archetype:generate,当执行到Choose a number or apply filter (format: [groupId:]artifactId, case sensitive contains):等待输入时,按下回车,本应出现list,但却循环执行前面的一段的问题。解决方案:将maven的conf目录下的...
2018-08-02 12:38:23 7765 1
原创 Hbase的分布式存储中拆分工具split的拆分界限问题
总说:拆分工具split在拆分时,会在splitPoint遵循左包含,右不包含(即就是[ ))的规则。 细说:例如:STARTKEY => '' , ENDKEY => '\x00\x00\xA1\xB1'(不被包含),假设拆分为两部分,这样的话,在拆分时,上一部分就不会包含\x00\x00\xA1\xB1,而这一部分的数据则会被包含在拆分的下一部分里面,即就是下一部分为STA...
2018-07-30 23:16:23 289
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人