自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(226)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 chrome自动代理检测(这玩意并没什么用,还会影响你访问某些网页)

啊,正常情况下,浏览一个网站是直接连上就行了。IE的代理自动检测就是每次都帮你找到一个代理服务器去上这个网站。如果你浏览的网站支持这种机制,有链接速度超快的代理服务器提供给你让你用,那网页加载的速度也会变快。然而目测好像这个IE的机制并没有什么卵用,它找不到好的代理服务器。 ...

2019-04-23 14:39:42 2828

原创 日记---2019.3.11

上午经历了短暂的情绪低潮和一些工作之后下午可以继续学习了。打算把学习部署和平安的事情 拖到明天上午再解决,下午我只想好好学习。

2019-03-11 14:35:34 135

原创 14场分析

核心思路:永远别想占到狗庄的便宜。。。1.切尔西 vs 狼队切尔西最近状态大勇,最近4个主场均完成零封。最近5场比赛4胜1平,状态极其稳定。错误点:分析错了热门方,切尔西 实力更强/状态更好/坐镇主场,天时地利人和,很容易受热。忽略点:狼队的实力,就他妈擅长防反,防守体系吊的一B,而且经常是直接赢豪门。狼队状态有所下滑,四轮比赛仅胜加的夫,且几乎场场都有丢球。切尔西稳...

2019-03-11 11:19:09 387

原创 物理机ping不通虚拟机

两边的防火墙都关了,在Linux下输入ifconfig,此时查看不到IP。接下来执行vi/etc/sysconfig/network-scripts/ifcfg-eth0,在初始配置的基础上加了:DEVICE=eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.80.129NETMASK=255.255.255.0GATEWAY=19...

2019-03-06 17:13:30 2322

转载 解决Linux系统下,出现“不在sudoers文件中,此事将被报告”的问题

解决Linux系统下,出现“不在sudoers文件中,此事将被报告”的问题2018年12月28日 16:00:39 sinat_39589027 阅读数:230我在安装VMware Tools工具时,会提示:不在sudoers文件中,此事将被报告。是因为当前操作用户的权限不足,而root用户只有在权限分配及系统设置时才会使用,而root用户的密码也不可能公开。普通用户执行到系统程序时,需要...

2019-02-24 11:27:29 441

转载 org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;

org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;2017年09月20日 16:29:27 pan_haufei 阅读数:5765恭喜老铁,跟我遇到了一样的问题,接下来是解决方法:遇到的问题:org.apache.spark.sql...

2019-02-13 17:45:18 1205 1

转载 E: Unable to lock the administration directory (/var/lib/dpkg/), is another process using it?

E: Unable to lock the administration directory (/var/lib/dpkg/), is another process using it?刚开始试了如下两个:sudo rm /var/cache/apt/archives/locksudo rm /var/lib/dpkg/lock发现没效果,然后有试了下面这组命令:sudo rm...

2019-01-09 16:50:31 166

原创 spark RDD内容总结(适用于复杂的结构)

1.RDD Checkpointing和RDD cache/persist的区别?相同点:都需要手动调用方法来保存结果,为了避免前面所做的计算工作丢失,需要把RDD存到缓存或者checkpoint里。 存放目录的区别是否自动清除?Checkpointing:自己设置目录,目录下面的文件我们自己来决定是否删除。cache/persist:只在程序运行时,存在临...

2019-01-05 16:24:04 380

原创 spark基础

查看hdfs文件分块hdfs dfs -mkdir -p  /events/datahdfs dfs -put  /xxx/xx/3.csv(本地目录)   /events/data(hdfs目录)hdfs fsck /events/data/events.csv -files -blocks    //查看文件有多少个物理分块128M一块,所以1.17G被分成9个物理块,这个文件...

2018-12-27 17:49:01 134

原创 面试时如何从一篇文章里找到正好出现100次的那个单词?

找到大于100的单词更简单,加一个filter,x._2表示第二个元素大于5,即出现超过5次的。scala> val wc = sc.textFile("file:///home/liugen/3.txt").flatMap(line=>line.split(",")).map(w=>(w,1)).reduceByKey(_+_).filter(x=>x._2>5...

2018-12-24 17:14:27 155

原创 spark启动报错排查!!!(花了三个小时终于解决,解决之后感觉很爽很有成就感)

今天午饭推迟了半个小时才去吃,就搞这个来着,搞完了轻松了,吃饭都香。spark的目录有一个问题,忘记说了,spark里面的用户莫名其妙叫什么500,权限根本不属于我,报错里没看出来这一点。我得把整个spark目录的拥有者先变成我自己sudo chown -R liugen:liugen /work/spark核心问题是出在这里!!!tmd,终于成功了。重启了下spark,可...

2018-12-21 12:22:40 3043

转载 scala中Array、List、Tuple异同

scala中Array、List、Tuple异同https://blog.csdn.net/baidu_35570545/article/details/778934212017年09月08日 13:12:59 水yu月 阅读数:422 标签: scala 更多个人分类: scala版权声明:欢迎转载,转载请注明出处! https://blog.csdn.net/baidu_355...

2018-12-11 11:12:22 104

原创 scala中的object 和java的class有什么区别?

用自己的话简单说就是:scala没有静态方法和静态字段,通过object来实现 对象名直接调用方法。形如Array.toString 眼见为实,在网上看到一个例子,动手操作之后我是这么理解的。ApplyExample.main(null) 运行主类Class和Object同名的话,则这个Class是Object的伴生类,Object可以静态的调用方法。两者都可以定义appl...

2018-12-11 06:09:34 811

转载 Java代码通过API操作HBase的最佳实践

  https://www.cnblogs.com/sixiweb/p/3669069.html Java代码通过API操作HBase的最佳实践HBase提供了丰富的API。这使得用Java连接HBase非常方便。有时候大家会使用HTable table=new HTable(config,tablename);的方式来实例化一个HTable对象,实际上这并不是最好的实例化...

2018-12-08 14:48:08 83

转载 HBase重要练习(二)通过HBase API进行开发

逻辑我看了,很简单,但是要熟练,至少每个粒子要从头到尾做3遍确认自己清楚每个细节。这个后面再做。   原文地址:https://www.cnblogs.com/netbloomy/p/6683509.html 通过HBase API进行开发 一、将HBase的jar包及hbase-site.xml添加到IDE1、到安装HBase集群的任意一台机器上找到HBase...

2018-12-08 14:46:51 195

原创 HBase shell练习

首先初始化hadoop  namenode,namenode负责管理集群的命名空间和元数据。hadoop namenode -format初始化主要完成如下事情:1.初始化各个重要成员变量(包括rpc服务器等),初始化FSNamesystem(加载FMImage文件)2.创建和启动HTTP服务器;3.启动RPC服务器;4.启动回收站线程。 然后在hadoop的sbi...

2018-12-08 12:14:51 175

原创 hbase环境变量配置及启动

之前配置环境变量一直出问题是因为,我总把$HBASE_HOME/bin写在其他$HIVE_HOME/bin的后面,原来它是单独写一行才会生效。  设置环境变量1. 使用sudo vi /etc/profile命令修改系统环境变量export HBASE_HOME=/app/hbase-0.96.2export PATH=$PATH:$HBASE_HOME/bin ...

2018-12-07 17:23:17 6098 1

原创 hbase启动后HMaster迅速挂掉的问题(遇到问题学会看日志,发那些表面的报错纯属耽误时间)

首先打开hbase/logs目录下的xxxx.xxxx. master.log的日志拉到最后是最新一次的报错。如下异常java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but t...

2018-12-07 16:38:15 1013

原创 Hive面试题思路总结(一)

几个hive面试题,总是写不上来,看过两遍还是不会,还是写不出来,进一步说明了,写代码真的需要很疯狂的写才可能比较熟悉。 不过好在,现在基本都有思路了,简单总结一下。https://www.cnblogs.com/qingyunzong/p/8747656.html#_label0_0 这种题有了思路,把它形成套路,自然就熟能生巧了,但是光看懂思路真的写还是各种错误,所以说写出...

2018-12-07 15:02:48 651

转载 MapReduce排查错误日志方法

初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。 Hadoop MapReduce日志分为两部分,一部分是服务...

2018-12-06 15:39:17 2291

原创 前两天hive那几个面试题做一下,都看了答案,自己第二遍做,你也未必能去全会

RT。

2018-12-04 18:19:51 461

转载 Hive面试题干货(亲自跟着做了好几遍,会了的话对面试大有好处)

原文地址 http://www.cnblogs.com/qingyunzong/p/8747656.html  Hive学习之路 (十一)Hive的5个面试题讨论QQ:1586558083目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩  1、说明 2、需求 三、求每一年最大气...

2018-12-04 18:18:12 1824

转载 hive常用函数及数据结构介绍

https://blog.csdn.net/xiaolang85/article/details/51330634 Hive 中的复合数据结构简介以及一些函数的用法说明2016年05月06日 12:30:31 小狼_百度 阅读数:7329目录[-]一、map、struct、array 这3种的用法: 1、Array的使用 2、Map 的使用 3、Struct 的使用 4...

2018-12-04 18:14:09 284

转载 Hive执行job时return code 2排查

Hive执行job时return code 2排查2017年10月17日 14:50:56 娃都会打酱油了 阅读数:2570 标签: hivecode 2 更多个人分类: JavaHive版权声明:本文为starfd原创文章,转载请标明出处。 https://blog.csdn.net/starfd/article/details/78260400项目测试时,在执行Insert语句...

2018-12-04 16:31:50 1689

转载 Hive创建table报错:Permission denied: user=lenovo, access=WRITE, inode="":suh:supergroup:rwxr-xr-x

亲测:第二种方法最好用,虽然不知道有什么危害。 org.apache.hadoop.security.AccessControlException:2018年08月28日 15:25:48 wwyh520 阅读数:418更多个人分类: 大数据版权声明:everything https://blog.csdn.net/wanbf123/article/details/821486...

2018-12-03 21:54:51 595

转载 hive 字符集问题 报错 Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcept

 Latin1是ISO-8859-1的别名(mysql默认的字符集),有些环境下写作Latin-1 学习hive 使用mysql作为元数据  hive创建数据库和切换数据库都是可以的 但是创建表就是出问题 百度之后发现 是编码问题 特别记录一下~~~1.报错前如图:  2.在mysql数据库中执行如下:1 ALTER DATABASE hive CHARACTER S...

2018-12-03 21:43:16 271

原创 Hive语句是如何转化成MapReduce任务的

假如面试时给你一个这样的问题,你怎么解决。你要知道mapper和reducer工作的原理,从文件里按照key-value,一条一条记录读的,然后对数据做分解处理。  首先通过key-value传进来,每个value就是上图的一条记录,然后根据逗号我来分解他。获得这个字符串数组,如果第2个元素等于bee,那我就把它写出去。因为你sql语句,select的是id,所以我把第...

2018-11-29 14:41:18 622

原创 Sqoop import进阶

1.学会打包成JSON数组传进去2.从mysql的一个viewe导入,其实和table没有本质区别  CONCAT就是拼接一下 拼接成json数组   [{ "A":a , "B",b} , { }] 导入时可以从一个mysql的view导入 为什么采用JSON数组,因为一个Order对应一个Product,我们可以这么做。但是他现在mysq...

2018-11-29 12:08:25 127

原创 Mysql到HBase的迁移

Hive可是远重要于HBase sqoop import --connect jdbc:mysql://localhost/retail_db--username  root --password hadoop--table products        // mysql的products表--columns "customernum,customername"   ...

2018-11-28 17:53:16 751

原创 Sqoop往Hive导入数据实战

分为append和last-modified两种模式,前者会删除已有数据,后者会更新已有数据和添加新数据。 先创建Hive外部表,然后再导入Hive。sqoop import--connect jdbc:mysql://localhost/hr   指定mysql的数据库--table orders    指定是mysql中的什么表--username root--...

2018-11-28 16:43:51 116

原创 Apache Sqoop-----hdfs迁移工具

开源免费的数据迁移工具,可以从RDBMS导入HDFS,也可以从HDFS导出到RDBMS(这种场景现在spark什么的 需要写代码)。Hive可以基于SQL读取HDFS、HBASE、MongoDB的数据,Hive本质就是对已有数据源做一个包装所以说你从Hive中迁移就等于从hdfs中迁移,hbase也是一样的道理。  sqoop用起来非常简单 把整个表迁移过来...

2018-11-27 18:22:42 135

原创 HBase----Region Server架构

可以看到Region Server里面分很多HRegion的,也包括HLog(WAL)。我们写数据是先往hdfs里面写WAL来合并(临时凑合用,未排序),然后真实的数据根据Column Family分为多个Hstore,每个CF都有自己的HStore。Hstore里面又分为Memstore和HFile,在Memstore里进行排序,然后写满了再flush到HFile,最终把排序后的数据写到...

2018-11-27 14:42:00 95

原创 Hbase进阶

Namespace:其实就是database,但是Hbase其实没有数据库这种概念的,为了区分就叫namespace。 安全上做的比较粗糙,用grant来授权给表或者列族(这里做的还挺细)R  织入W 可写 C 创建A 管理如grant 'liugen' ,'RWCA' ,'my_hbase_table'  revoke 去掉权限反向操作很简单...

2018-11-27 14:35:02 59

原创 MemStore作用及flush过程

自己总结提示:要理解Metastore是什么,需要了解下HBASE写入数据的过程。1. 当RegionServer收到写请求,他会把数据丢到相应的Region里。2. 每个Region里面的结构是这样的,Region中 每个Column Family对应一个HStore。Hstore里面又分为MemStore和HFile,MemStore的作用就是先把数据写到这里,这是一个内存级的...

2018-11-27 13:39:51 476

转载 hbase架构原理之region、memstore、hfile、hlog、columm-family、colum、cell(有时间看)

hbase架构原理之region、memstore、hfile、hlog、columm-family、colum、cell2017年11月08日 16:34:52 亚当-adam 阅读数:957版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhaojianting/article/details/78480329Hbase的顶级存储结...

2018-11-27 13:21:26 159

转载 Hive连接Hbase操作数据

Hive连接Hbase操作数据 版权声明:本文为博主原创文章,未经博主允许不得转载。转载请注明来自http://blog.csdn.net/lr131425 https://blog.csdn.net/lr131425/article/details/72722932Hive整合HBase原理Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并...

2018-11-27 11:39:13 135

原创 Hive操作Hbase

Hive操作Hbase有三种方式:1. Hive把Hbase当数据源,以hive方式读取数据(hbase本身不好操作)2. hive向hbase中存放数据,利用hbase读取快的特性3.数据双向交换,结合1、2  你只需要desc formatted customer;  查看下详细的表信息,你就知道为什么要定义这些属性了。你比如说StorageHandler这个类型怎...

2018-11-27 11:21:07 104

转载 hive的三板斧:内部表和外部表、分区和分桶以及序列化/反序列化(SerDe)

hive的三板斧:内部表和外部表、分区和分桶以及序列化/反序列化(SerDe) Hive是Hadoop生态圈中实现数据仓库的一项技术。虽然Hadoop和HDFS的设计局限了Hive所能胜任的工作,但是Hive仍然是目前互联网中最适合数据仓库的应用技术。 不论从“品相还是举止”,Hive都像一个关系型数据库。用户对数据库、表和列这类术语比较熟悉的话,那么掌握Hive的查询语言HQL也轻而易举...

2018-11-27 11:09:42 143

原创 解决HMaster启动后几秒之内马上挂掉的问题

爱上看Hbase日志,身为小白白的我,一开始日志在哪我都不知道!路径:cat  $HBASE_HOME/logs/hbase-hadoop-master-Master.log(也就是安装hbase下的logs文件夹中))。日志白茫茫一片怎么看呢,其实Info什么的都不用管,直奔ERROR就可以。如下:2018-11-25 19:42:52,179 ERROR [Thread-14] m...

2018-11-26 12:11:50 2465 3

原创 Hbase很不稳定,输入hb无法联想出hbase,好像环境变量没生效是的。

在/etc/profile中添加Hbase环境变量,source /etc/profile还是没生效 jps一下,发现hmaster和HRegionServer节点又掉了,这东西怎么这么不稳定。重启了一下又好了 但是 echo $HBASE_HOME,还是没有任何反应。所以个人感觉是因为没有装在/usr/local目录下,之前mysql没装在这个目录下也出了问题。...

2018-11-26 11:34:25 150

C家家程序设计100例

C++资源程序设计 帮助你获得更好的新手进步机会

2013-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除