时间(实践)是检验真理的唯一标准

IT路上的辛勤耕耘者
私信 关注
时间_实践
码龄10年
  • 301,031
    被访问量
  • 58
    原创文章
  • 44,946
    作者排名
  • 38
    粉丝数量
  • 目前就职 友乐活(北京)网络科技有限公司
  • 于 2011-02-13 加入CSDN
获得成就
  • 获得72次点赞
  • 内容获得47次评论
  • 获得168次收藏
荣誉勋章
兴趣领域
  • #大数据
    #hadoop#spark#storm#ETL#hive#数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

hive中 regexp_replace的用法,替换特殊字符问题

数据仓库中有的字段不合格,有特殊字符,比如换行符。poi_name
19013
12013怎么把换行符替换掉呢?https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringOperatorsregexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)Retu.
转载
298阅读
0评论
0点赞
发布博客于 2 月前

使用idea对maven项目打包时,报 invalid LOC header (bad signature)异常处理

打包,报错: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [INFO] Including org.codehaus.groovy:groovy-all:jar:2.4.3in the shaded jar. [INF...
原创
680阅读
0评论
0点赞
发布博客于 2 年前

谷歌浏览器开多个小号窗口

1 右键 新建快捷方式在弹出的对话框 对象的位置中输入chrome.exe 所在的位置2 在生成的快捷方式点击右键 --属性--目标 后面加上 --user-data-dir=E:\chrome\20最终事例目标"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --user-data-dir=E:\chrome...
原创
1792阅读
0评论
0点赞
发布博客于 2 年前

hive导出csv文件

hive表没有指定分隔符hive -e 'set hive.execution.engine=tez; set hive.cli.print.header=true; set hive.resultset.use.unique.column.names=false; select * from xyy_bigdata_ods.user_city_tag_1027' | sed 's/x01/,...
原创
916阅读
0评论
0点赞
发布博客于 2 年前

NoViableAltException(100124:1: selectItem :

报错信息:NoViableAltException(100@[124:1: selectItem : ( ( expression ( ( ( KW_AS )? identifier ) | ( KW_AS LPAREN identifier ( COMMA identifier )* RPAREN ) )? ) -> ^( TOK_SELEXPR expression ( ident...
原创
1229阅读
1评论
0点赞
发布博客于 2 年前

sqoop一些常用命令及参数

这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 expor...
原创
172阅读
0评论
0点赞
发布博客于 2 年前

spark循环中的变量问题,,foreach里面向map填值,在循环外面值没有了

下面这个map在循环里面有值,到循环外的map里就没有值了。。。objectTest { defmain(args: Array[String]): Unit = { valconf =newSparkConf(); conf.setMaster("local[1]"); conf.setAppName("WcAppTask")...
原创
1390阅读
5评论
1点赞
发布博客于 2 年前

java.sql.BatchUpdateException: Data truncation: Out of range value for column 'aa' at row

sqoop从hive导出表到mysql问题原因:mysql表里面字段aa类型是decimal,长度是(10,2)解决方案:将长度改成(16,2)解决
原创
1797阅读
0评论
0点赞
发布博客于 2 年前

mysql密码忘记使用超级管理员密码重置

停止mysql服务 运行输入services.msc 停止mysql服务 在cmd下 输入: mysqld --skip-grant-tables启动服务器 光标不动 (注意:不要关闭该窗口) 再打开一个cmd窗口输入mysql -u root -p 不需要密码 进入MySQL后输入如下命令use mysql;update user set passwo...
原创
132阅读
0评论
1点赞
发布博客于 2 年前

Protocol message end-group tag did not match expected tag

ERROR o.a.s.d.executor -java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details :...
原创
5759阅读
0评论
4点赞
发布博客于 2 年前

解决pip安装太慢的问题

经常在使用Python的时候需要安装各种模块,而pip是很强大的模块安装工具,但是由于国外官方pypi经常被墙,导致不可用,所以我们最好是将自己使用的pip源更换一下,这样就能解决被墙导致的装不上库的烦恼。网上有很多可用的源,例如豆瓣:http://pypi.douban.com/simple/ 清华:htt...
转载
25843阅读
10评论
16点赞
发布博客于 2 年前

lombok在IntelliJ IDEA下的使用

lombok是一款可以精减java代码、提升开发人员生产效率的辅助工具,利用注解在编译期自动生成setter/getter/toString()/constructor之类的代码。代码越少,意味着出bug的可能性越低。官网地址:https://projectlombok.org/首页有一段几分钟的演示视频,看完就明白是怎么回事了。各种注解的详细用法,请参考:https://project...
原创
252阅读
0评论
0点赞
发布博客于 2 年前

Scala 2.10.0 新特性之字符串插值 s,f,raw

Scala 2.10.0 新特性之字符串插值 s,f,rawScala在处理字符串方面终于也与时俱进了,引入了字符串插件,这在许多脚本语言中就早已这么做了。有了这个特性,字面量字符串和变量连接可以不需要总是用加号进行丑陋的连接了。有些脚本语言会是只对双引号字符串解析其中的变量,单引号的不会,当然Scala是要区分字符串和字符类型。直白的讲字符串插值就是,val name="Unmi";...
转载
235阅读
0评论
0点赞
发布博客于 2 年前

推荐系统之决策树算法

分类模型:决策树目录一、决策树的引入:................................................................................................................ 3二、首先从一个实例讲起:.......................................................
原创
782阅读
1评论
0点赞
发布博客于 2 年前

TypeError: 'range' object is not callable

TypeError: 'range' object is not callableIn python 3,rangereturns an iterator, not a list itself. The following does hence not work with python 3. It does however, with python 2.import seaborn ...
原创
4909阅读
0评论
0点赞
发布博客于 2 年前

Python 数据科学库入门

Python 数据科学库入门1.Numpy1.1Numpy 简介Numpy(Numerical Python)Numpy:提供了一个在 Python 中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比 Python 自身的嵌套列表结构要高效的多。本身是由 C 语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。...
原创
836阅读
0评论
0点赞
发布博客于 2 年前

Python 数据科学入门

Python 数据科学入门1.0 了解 Python1.1 绍 课程介绍 & 为什么 Python 如此受欢迎?(1) 课程介绍Tips:Python 基础+数据科学基础(Numpy\Pandas\Matplotlib\Scipy)(2) Python 为什么如此受欢迎?Python 语言介绍: 面向对象,解释型计算机程序设计语言 1989 年 Guido van Ro...
原创
295阅读
0评论
0点赞
发布博客于 2 年前

机器学习

1. 机器学习引入引用著名的西瓜书上对机器学习的引入。试想这样一个场景,傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞。心里想着明天又是一个好天气。走到水果摊旁,挑了个色泽青绿、敲起来声音浊响的青绿西瓜,一边期待着西瓜皮薄肉厚瓤甜的爽落感,一边愉快地想着,明天学习 Python 机器学习一定要狠下功夫,基础概念搞得清清楚楚,案例作业也是信手拈来,我们的学习效果一定差不...
原创
1243阅读
0评论
0点赞
发布博客于 2 年前

机器学习入门简介

机器学习Java、Python是一门语言,机器学习是一门技术或方法,数据挖掘是一件事情。语言------------------------->机器学习----------------------->数据挖掘、模式识别、人工智能也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;...
原创
219阅读
0评论
0点赞
发布博客于 2 年前

Failed calling sys.__interactivehook__

C:\Users\data>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license" for more information.Failed calli...
原创
4671阅读
11评论
17点赞
发布博客于 2 年前

jupyter-使用及设置密码 window系统下

(一)使用1.终端输入:jupyter notebook --generate-config 会生成一个配置文件,成功后会显示文件路径(C:\Users\bigdata03\.jupyter\jupyter_notebook_config.py) 2.打开路径下的jupyter_notebook_config.py配置文件,找到c.NotebookApp.notebook_dir=修改为自己...
原创
443阅读
0评论
0点赞
发布博客于 2 年前

稀疏矩阵的存储格式CSC理解。(Local Matrix)

稀疏矩阵的存储格式CSC理解。目的Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵存储的空间。Spark API在Spark中我们一般创建这样的稀疏矩阵的API...
转载
719阅读
0评论
0点赞
发布博客于 2 年前

A master URL must be set in your configuration

org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:376) at org.apache.spark.SparkContext$.getOrCr...
原创
598阅读
0评论
0点赞
发布博客于 2 年前

HBase隔离方案实战-rsgroup

HBase适合用于海量数据的存储,横向扩展非常方便,随着数据的增长,访问的性能却不会出现很大的下降。这是很多的公司选择使用HBase作为分布式数据库的一个很重要的原因。正常来说,一个HBase集群肯定不止跑一个业务,即多个业务共享集群资源。这些业务中有的对性能要求很高;有的业务要求存储很大;有的业务属于公司的核心业务,需要重点保障;有的业务是离线业务,短时间访问不了影响也不大。这里就会产生对于不同...
转载
571阅读
0评论
0点赞
发布博客于 2 年前

基于Mysql表结构生成Hive表结构

背景业务系统库数据迁移到Hadoop平台做分析要涉及到所有迁入的表结构要类型和表结构语句的更改,部分表字段可能两三百个字段,对程序员来说捉行手动修改简直始终煎熬。。。表结构mysql`id` int(10) unsigned NOT NULL AUTO_INCREMENT,`city_id` int(11) NOT NULL DEFAULT '0' COMMENT '大区ID'...
转载
1082阅读
2评论
0点赞
发布博客于 2 年前

ALS.train 报错java.lang.StackOverflowError

开发协同过滤组件,运用了spark millb上的协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误,查找了错误位置,发现在训练的时候,迭代次数的增加便会出现这个问题,原因可能是迭代是的计算的数据量指数上升sc.setCheckpointDir("/tmp")问题暂时解决因为这只是一个治标不治本的办法。每次你还要去删除/tmp里面的文件...
原创
374阅读
0评论
0点赞
发布博客于 2 年前

Notepad++找回自动保存缓存内容的文件

文件自动保存的路径 C:\Users\Administrator\AppData\Roaming\Notepad++\backup类似于图片上的 用Notepad++打开就能得到自动缓存的文件要是修改过路径按照以下方法查找点击Notepad++---设置---首选项--备份--定期备份在---后面跟着的就是你的备份路径...
原创
2228阅读
2评论
1点赞
发布博客于 2 年前

CDH 安装 presto集成hive和mysql

1.Presto简介 Presto是由Facebook开源,完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据,然后直接访问HDFS中的数据,同时支持Hadoop中常见的文件格式比如文本,ORC和Parquet。同Impala一样,作为Hadoop之上的SQL交互式查询引擎,通常比Hive要快5-10倍。另外,Presto不仅可以访问HDFS,还可以...
转载
1569阅读
3评论
0点赞
发布博客于 2 年前

Spark 调优 (Tuning Spark)

由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络、带宽、内存。通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽。但有些时候您也需要做一些调优,比如利用RDD序列化存储来降低内存消耗。本手册将会涵盖以下两个大点:数据序列化(对优化网络传输和降低内存开销有显著效果)、内存优化。我们同时会介绍另外的几个小点。数据序列...
转载
136阅读
0评论
0点赞
发布博客于 2 年前

Spark中cache和persist的作用以及存储级别

在Spark中有时候我们很多地方都会用到同一个RDD, 按照常规的做法的话,那么每个地方遇到Action操作的时候都会对同一个算子计算多次,这样会造成效率低下的问题例如:val rdd1 = sc.textFile("xxx")rdd1.xxxxx.xxxx.collectrdd1.xxx.xxcollect123上面就是两个代码都用到了rdd1这个RDD,如果程序执行的话,那...
转载
543阅读
0评论
1点赞
发布博客于 2 年前

遇到的问题集

问题1:streaming提交任务产生了堆积原因 消费偏移量产生了大量的堆积查看sparkUI界面可以得知由于偏移量由服务端掌握,所以2天堆积的数据达到了5000万条spark任务处理不过来对策:重置消费偏移量,增大运行存储(需要增加的特别大,因为堆积的数据量太多,需要想办法处理)spark.streaming.unpersist()设置为true,可以自动回收...
原创
1651阅读
0评论
2点赞
发布博客于 2 年前

DataFrame 读取与保存

Spark SQL支持多种结构化数据源,能够轻松从各种数据源中读取Row对象。这些数据源包括Hive表,JSON,Parquet,CSV等文件。 从文件系统加载与保存 // hdfs上读取val customerDF = spark.read.format("csv").mode("overwrite").option("header", true).load("hdfs:/temp...
转载
3005阅读
0评论
0点赞
发布博客于 2 年前

MAVEN手动安装jar到本地仓库mvn install

如果你:从远程仓库down jar比较慢,更换镜像还是很慢;依赖的jar文件不多,而且你手头正好有这个jar文件。那么你可以尝试手动安装jar到本地仓库。 maven命令:mvn install:install-file -Dfile=e:/it-blacklist-0.0.1-SNAPSHOT.jar -DgroupId=cn.blacklist -DartifactI...
转载
588阅读
0评论
0点赞
发布博客于 2 年前

java.net.ConnectException: Connection refused: no further information

  java.net.ConnectException: Connection refused: no further information程序抛出这个异常的原因多数是因为在此[host:port]没有监听,那么该如何解决这个问题呢,如下第一个要做的是看你的host和port是否写错了,如 [ 127.00.1:8080 ] 第二个要看你的server是否真正的运行起来了,比如serv...
转载
2679阅读
0评论
0点赞
发布博客于 2 年前

hive+hbase做关联表问题 Error in metadata: MetaException(

运行的建表语句create  table my_report(myrow string,lastname string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,cf1:firstname") tblprope...
原创
249阅读
0评论
0点赞
发布博客于 3 年前

zeepplin连接hive 运行报错

java.lang.ClassNotFoundException: org.apache.hive.service.cli.thrift.TCLIService$Iface在配置hive的时候缺少jar包/opt/zeppelin-0.8.0-bin-all/lib/hadoop-common-2.7.3.jar/opt/zeppelin-0.8.0-bin-all/lib/hive...
原创
128阅读
0评论
0点赞
发布博客于 3 年前

impala 导出查询结果到文件

想用impala-shell 命令行中将查询的结果导出到本地文件,想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地,执行了一下,发现impala 不支持这个。然后查了一下,发现impala-shell 可以像mysql 一样的方式导出查询结果到文件。...
转载
1084阅读
0评论
0点赞
发布博客于 3 年前

hadoop 权限错误 Permission denied: user=root, access=WRITE, inode="/":hdfs:super

hadoop 权限错误 Permission denied: user=root, access=WRITE, inode="/":hdfs:super关于不能执行Hadoop命令 并报权限问题执行错误1、Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-xmkdir: Permis...
转载
6810阅读
0评论
0点赞
发布博客于 3 年前

如何删除一个CSDN上自己上传的资源

第一步,找到你想删除的资源,其URL举例为:  https://download.csdn.net/download/xipan10102232/10139473则删除的get请求为:  http://download.csdn.net/index.php/user_console/del_my_source/10139473删除成功返回:  {"succ":1,"msg"...
转载
101阅读
0评论
0点赞
发布博客于 3 年前

Apache Kylin中文权威指南.pdf

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。, 第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。
rar
发布资源于 3 年前

Apache Kylin权威指南.pdf 高清完整版

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。, 第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。
rar
发布资源于 3 年前

ERROR JobScheduler: Error running job streaming job 1540258675000 ms.0

ERROR JobScheduler: Error running job streaming job 1540258675000 ms.0java.lang.RuntimeException: Cannot create staging directory 'hdfs://hadoop0:8020/2018-10-23_09-37-58_174_6141814714045964959-1':...
原创
1983阅读
0评论
0点赞
发布博客于 3 年前

合并hadoop中的小文件方案(一)

import java.util.Dateimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.io.compress.DeflateCodecimport org.apache.spark.rdd.RDDimport org.apach...
原创
494阅读
0评论
0点赞
发布博客于 3 年前

通过linux远程连接mysql,查询结果中文为乱码小结

首先本地办公环境为windows使用的是navicat连接的mysqlnavicat连接mysql时查询结果正常查看编码方式:mysql&gt; show variables like ‘%character%‘;+--------------------------+--------------------------------+| Variable_name       ...
转载
1191阅读
0评论
1点赞
发布博客于 3 年前

Linux服务器删除乱码文件和文件夹的方法

https://www.linuxidc.com/Linux/2015-01/111469.htm
转载
589阅读
0评论
0点赞
发布博客于 3 年前

“ERROR 2003 (HY000): Can't connect to MySQL server on 'localhost' (10061)”

坑的一比介绍下我进入到坑第一个 插入数据到mysql的时候java.sql.BatchUpdateException: Incorrect string value: '\xF0\x9D\x94\xB9+)...' for column 'title' at解决方案原因:由于mysql默认编码为utf-8,占3个字节,一些表情或者非常见字符,比如该例子中“\xF0\x9D\...
原创
507阅读
0评论
0点赞
发布博客于 3 年前

Exception in thread "main" java.lang.NoClassDefFoundError: scala/Function1

项目本地测试过程中报错Exception in thread "main" java.lang.NoClassDefFoundError: scala/Function1    at com.yoloho.bigdata.SparkStreamingrocketmq.main(SparkStreamingrocketmq1.scala)Caused by: java.lang.ClassN...
原创
4350阅读
0评论
3点赞
发布博客于 3 年前

org.apache.spark.sql.analysisexception: Table or view not found: `traintext`.`train`; line 1 pos 14;

org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;'Project [*]+- 'UnresolvedRelation `traintext`.`train`     at org.apache.spark.sql.catalyst....
转载
2353阅读
0评论
0点赞
发布博客于 3 年前

Phoenix简介及安装部署使用

 什么是Phoenix?phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据。Phoenix的团队...
转载
441阅读
0评论
0点赞
发布博客于 3 年前

sql内置函数pivot

语法:PIVOT用于将列值旋转为列名(即行转列),在SQL Server 2000可以用聚合函数配合CASE语句实现PIVOT的一般语法是:PIVOT(聚合函数(列) FOR 列 in (…) )AS P完整语法:table_sourcePIVOT(聚合函数(value_column)FOR pivot_columnIN(&lt;column_list&gt;)...
转载
924阅读
1评论
0点赞
发布博客于 3 年前

ssh配置多台机器免密登录

首先说下,这里一共五个虚拟机,ip地址只有最后的网段不同。1 .首先在五个虚拟机上都执行 ssh-keygen这个命令,这里后面加上 -t rsa不是必须的,以为这里默认生成的密钥类型就是rsa类型 2 .一路按y,其他按回车生成密钥,位置在/root/.ssh下面 3 .接下来在master节点,也就是第一台虚拟机上进入/root/.ssh目录,将生成的公钥id_rsa.pub放入到...
转载
1733阅读
0评论
0点赞
发布博客于 3 年前

NoViableAltException(10@[])

原因一1:参数中的符号写错了,比如双引号"" 解决方案:改变符号就可以了原因2:antlr解析字符串STRING出错:no viable alternative at input,对应的错误是NoViableAltException(0@[null])...
原创
9346阅读
0评论
1点赞
发布博客于 3 年前

hbase的rowkey设计之字典顺序

大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的,先比较第一个字节,如果第一个字节小就不比较后面的了,如果第一个字节相同比较第二个字节的大小,以此类推。所以“19”是两个字节,第一个字节的ascii码是49,比“2”的ascii的50小,所以字符串的19字典顺序比字符串小。...
原创
926阅读
0评论
1点赞
发布博客于 3 年前

HBase面试题

1 每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据答:看到这个题目的时候我们要思考的是它在考查什么知识点?1)数据量百亿条,什么概念呢?假设一整天60x60x24 = 86400秒都在写入数据,那么每秒的写入条数高达100万条,HBase当然是支持不了每秒百万条数据的,所以这百亿条数据可能不是通过实时地写入,而是批量地导入。批量导入推荐使用Bulk...
转载
1861阅读
0评论
1点赞
发布博客于 3 年前

ERROR StreamingContext: Error starting the context, marking it as stopped

ERROR StreamingContext: Error starting the context, marking it as stoppedjava.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to executeException in t...
原创
3375阅读
0评论
0点赞
发布博客于 3 年前

nc/netcat命令

在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程 一、安装使用1、只需输入命令yum安装:[root@SZB-L0032015 ~]# yum install -y nc[root@SZB-L0032015 ~]# yum install -y ncLoaded plugins: fastestmirror, refresh...
转载
5252阅读
0评论
1点赞
发布博客于 3 年前

Spark面试题及其答案

一、简答题1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。standby节点要从zk中,获得元数据信息,恢复集群运行状态,才能对外...
原创
28719阅读
2评论
10点赞
发布博客于 3 年前

spark中提交任务参数的详解及spark运算调优

任务中只有一个action算子操作,只会产生一个job,这一个job会根据rdd之间一系列的操作,首先会生成一个DAG有向无环图,然后根据我们在代码里面创建new SparkContext 这个操作里面会帮我们创建DAGScheduler和TaskSchedulerDAGScheduler根据宽依赖把DAG有向无环图进行stage换分,只有一个宽依赖,整个DAG被划分成2个stage每一个s...
原创
994阅读
0评论
0点赞
发布博客于 3 年前

The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received

原因1:收据库回收了连接原因2:连接数据库的地址写错了
原创
1003阅读
0评论
0点赞
发布博客于 3 年前

No 'Access-Control-Allow-Origin' header

Response to preflight request doesn't pass access control check: No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:9105' is therefore not allowed a...
原创
183阅读
0评论
0点赞
发布博客于 3 年前

use-expressions="false"和use-expressions="true"

如果声明为true,那么在access属性要用hasRole()这样写:&lt;intercept-url pattern="/secure/extreme/**" access="hasRole(‘ROLE_SUPERVISOR‘)"/&gt;如果声明为false(默认),那么access直接就是&lt;intercept-url pattern="/secure/extreme/**" acc...
原创
1620阅读
1评论
0点赞
发布博客于 3 年前

$scope.点后面的内容

$scope.brandList=JSON.parse(response.brandIds);//品牌数据ng-options="item.id as item.text for item in brandList"    $scope.typeTemplate=response;//获取类型模 $scope.typeTemplate.brandIds= JSO...
原创
1312阅读
0评论
0点赞
发布博客于 3 年前

Cannot read property 'success' of undefined

调用JS的service层 没有return返回值
原创
5944阅读
2评论
5点赞
发布博客于 3 年前

前端框架AngularJS入门

一.简介    AngularJS  诞生于2009年,由Misko Hevery 等人创建,后为Google所收购。是一款优秀的前端JS框架,已经被用于Google的多款产品当中。AngularJS有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、依赖注入等等。二.特性    1.mvc模式        Angular遵循软件工程的MVC模式,并鼓励展现,数据,和逻辑组件之间的松...
原创
561阅读
0评论
0点赞
发布博客于 3 年前

Solr入门(一)

一.solo是什么    企业级应用搜索服务器.二.solo的使用    1.导包    &lt;dependencies&gt; &lt;!-- Junit单元测试 --&gt; &lt;dependency&gt; &lt;groupId&gt;junit&lt;/groupId&gt; &lt;artifactId&gt;junit&lt;/artifactId&gt;
原创
146阅读
0评论
0点赞
发布博客于 3 年前

学习solr过程中的问题org.apache.solr.client.solrj.beans.BindingException: class: class

org.apache.solr.client.solrj.beans.BindingException: class: class使用实体类javabean对象添加索引 但是没有在实体对象上添加注解修改前 private String id; public String getId() { return id; } public void setId(String id) { th...
原创
2541阅读
3评论
1点赞
发布博客于 3 年前

爬虫学习中的lucene(简单的入门)

一.搜索引擎的原理    1.网络中爬取数据    2.将数据保存下来    3.对数据进行清洗(筛选)    4.对需要的数据建立索引    5.用户搜索获得需要的数据二.倒排索引技术    1.将所有的词切开,对每个词进行编号.    2.把每个词在哪些文档中出现过记录下来.        3.用户搜索某个关键词,找到对应的关键词,取出该词对应的DocId    4.根据DocId找到相应的内...
原创
549阅读
0评论
1点赞
发布博客于 3 年前

使用java代码连接redis及工具類

一.导包&lt;!-- https://mvnrepository.com/artifact/redis.clients/jedis --&gt;&lt;dependency&gt; &lt;groupId&gt;redis.clients&lt;/groupId&gt; &lt;artifactId&gt;jedis&lt;/artifactId&gt; &lt;ver...
原创
254阅读
0评论
0点赞
发布博客于 3 年前

设置爬虫定时任务

一.导包&lt;!-- https://mvnrepository.com/artifact/org.quartz-scheduler/quartz --&gt;&lt;dependency&gt; &lt;groupId&gt;org.quartz-scheduler&lt;/groupId&gt; &lt;artifactId&gt;quartz&lt;/artifactId...
原创
1504阅读
0评论
1点赞
发布博客于 3 年前

网络爬虫(一)

一.http请求发送的三种方式    1.jdk自带的url路径访问    1.1通过get请求获取百度首页的html文本内容 @Test public void testName() throws Exception { //指定网址 www.baidu.com URL url = new URL("http://www.baidu.com"); //获取连接 URLConne...
原创
373阅读
0评论
0点赞
发布博客于 3 年前

导入项目出现The project cannot be built until build path errors are resolved错误

问题原因,导入项目的jdk的你自己的jdk不一致,解决方案:右键工程,选择build path-&gt;configure build path,弹出的窗口里面选择libraries选项卡,删除jar包,选择自己电脑上的jar包...
原创
3707阅读
0评论
0点赞
发布博客于 3 年前

用eclipse获取json字符串指定的数据

在上一篇日志中我们发现美团酒店列表采用的是ajax.通过查看network找到了ajax提交的网址https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&amp;version_name=999.9&amp;cateId=20&amp;attr_28=129&amp;uuid=61E1B8AD1D61784182F0D300BC6...
原创
1541阅读
0评论
1点赞
发布博客于 3 年前

在eclipse通过爬虫获取指定地区美团酒店的酒店名字

简单介绍下流程,通过访问美团连接,得到相应的数据,对数据进行处理即可以北京的美团酒店为例http://hotel.meituan.com/beijing通过f12查看到酒店的名字绑定的class是poi-title-wrapper所以我们可以直接通过jsoup选择节点 @Test public void testName11() throws Exception { Document doc...
原创
1147阅读
0评论
1点赞
发布博客于 3 年前

The current request is not a multipart request

springmvc上传文件的时候出现的错误解决方案    上传的from表单里面没有添加属性    在表单属性上加上 enctype="multipart/form-data"    完美解决
原创
700阅读
0评论
0点赞
发布博客于 3 年前

在spring中配置定时器(注解版)

一 .在springmvc.xml中配置任务注解http://www.springframework.org/schema/task http://www.springframework.org/schema/task/spring-task-4.2.xsd &lt;task:annotation-driven /&gt;二.在controller中加注解@Controller//那四种能...
原创
3177阅读
0评论
0点赞
发布博客于 3 年前

SpringMVC(二)

一、高级参数绑定    在jsp页面返回给前端控制器的数据中,能否携带非简单参数呢?当然是可以的.现在我们来举例.    1返回数组    1.1修改jsp页面&lt;td&gt;&lt;input name="ids" value="${item.id}" type="checkbox"&gt;&lt;/td&gt;    1.2在controller类中通过三种方式获取传递的数组       ..
原创
81阅读
0评论
0点赞
发布博客于 3 年前

org.springframework.beans.factory.BeanCreationException

org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerMapping': Initialization of bean fail...
原创
128405阅读
2评论
1点赞
发布博客于 3 年前

三大框架整合 srpingMVC 4.2.4 + spring 4.2.4+ mybatis 3.2.7+maven整合

第一步:maven项目创建第二步:解决jdk版本过低问题以及web.xml丢失问题第三步:导入相应的jar包第四步:配置MyBatis的xml文件第五步:配置applicationContext.xml第六步:配置spring-mvc.xml第七步:配置web.xml第八步:准备数据库第九步:将jsp页面放入到我们的工程下面第十步:controller实现第十一步:service层实现第十二步:d...
原创
348阅读
0评论
0点赞
发布博客于 3 年前

Failed to read candidate component class

Failed to read candidate componentclass,这个问题是因为你在启动tomcat7插件之前把项目进行了编译出现的问题。解决方法:1你需要把class找到然后删除,进行重新编译。                2:执行maven中的claen命令清除...
原创
51阅读
0评论
0点赞
发布博客于 3 年前

spring入门(三)

一、jdbcTemplate的入门程序    spring框架也集成了对JDBC数据库的操作,但是要明白的是spring对JDBC的支持只是一个简单的封装(JdbcTemplate来操作数据库),而不是真正意义上的ORM框架,所以一般情况下我们都会在spring容器管理的基础上集成Hibernate框架或者Mybatis框架.    1.创建maven工程(修改jdk版本和配置web.xml文件)...
原创
360阅读
0评论
0点赞
发布博客于 3 年前

Mybatis入门

        一、简介        Mybatis是一个操作数据库的框架。最开始叫做ibatis,从apache基金会脱离,加入googleCode正式更名为MyBatis。最终现在mybatis的代码托管在github。        二、mybatis的架构介绍                三、mybatis入门程序        第一步:创建maven工程         第二步:解决...
原创
48阅读
0评论
0点赞
发布博客于 3 年前

spring入门(二)AOP

接着上面的内容。        今天主要学习的是AOP        一、什么是AOP?            Aspect-Oriented Programming, 面向切面编程。            举个例子,我们去市场买菜,为了防止商家卖的菜有农药残留,我们需要随身带一个校测器,每买一个菜我们都需要自己手动去检查。当我们使用了AOP之后,我们只需要去买菜,AOP自动帮我们完成了检测是否有...
原创
60阅读
0评论
0点赞
发布博客于 3 年前

spring入门

在学习Spring之前,我们首先要了解,spring究竟是什么东西,我们为什么要学习Spring?一、Spring是什么?    1、Spring是一个开源的框架,它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 J2EE 应用程序开发提供集成的框架;Spring使用基本的JavaBean来完成以前只可能由EJB完成的事情。然...
原创
170阅读
1评论
0点赞
发布博客于 3 年前

逆向工程generatorSqlmapCustom

generatorSqlmapCustom逆向工程,能够生成数据库所连接的代码
zip
发布资源于 3 年前