大数据
文章平均质量分 61
光圈1001
从事于金融反欺诈系统大数据研发工作
展开
-
kafka send方法小结
1、kafka的send 默认发送方式应该是同步,而非异步public ApacheKafkaClient(String kafkaServers, boolean sync) throws Exception { super(kafkaServers, sync);}查看父类VersionKafkaClient2、kafka调用send方法有3种方式//单条发送public void send(String topic, String message) throws Excepti原创 2020-09-16 00:37:44 · 3287 阅读 · 0 评论 -
谷歌浏览器安装es-head插件
es-head插件的方便不多说,由于要安装的电脑不能联网,因此要下载离线的安装包,而且不想编译,折腾了很久,特地记录1.github的地址:https://github.com/mobz/elasticsearch-head2.下载谷歌的crx插件的地址(根据id):https://chrome-extension-downloader.com/3.下载的插件拖到浏览器,如果crx格式加载报了无效的异常,解决办法:1.文件格式修改为zip2.解压3.浏览器加载解压安装包,记得要选择有.json的原创 2020-08-19 00:03:32 · 3031 阅读 · 0 评论 -
--------------------------------------集合List去重总结------------------------
java----->集合List去重总结List是实际开发中非常常用的集合,此处简单总结lsit的去重观察源码:继承父类Collection:public interface List extends Collection {}最常用的实现类:public class ArrayList extends AbstractListimplements List, RandomAccess, ...原创 2019-11-19 16:42:02 · 904 阅读 · 0 评论 -
2019/11/11 测试ow
2019/11/11 测试ow开始记录自己的开发点滴原创 2019-11-11 21:13:46 · 905 阅读 · 0 评论 -
ambari失去心跳同时无法连接其中一台datanode的错误
状况:ssh连接不上 、其他的主机无法ping 通 、也无法ssh登陆 amabri 集群失去心跳ambari的服务停止无法解决检查了hosts正常检查ip地址!!!!!!!!!可能是由于路由器动态分配了一个新的地址电脑的ip的自动分配,要讲自动分配修改为静态ip,再将自己的ip 和子网掩码配置,即可怎么在linux上永久修改IP地址:https://jingyan.baid...原创 2018-11-12 20:27:35 · 897 阅读 · 0 评论 -
关于mongodb的文件存储的使用
gridfs是用于存储和检索超过BSON文档大小限制16 MB的文件的规范。gridfs不将文件存储在单个文档中,而是将文件分为多个部分或块[1],并将每个块存储为单独的文档。默认情况下,gridfs使用默认块大小255 kb;也就是说,gridfs将文件划分为255 kb的块,最后一个块除外。最后一个块只有在必要的时候才那么大。类似地,不大于块大小的文件只有最后一个块,只使用所需的空间加上一些...原创 2019-03-22 10:43:39 · 953 阅读 · 0 评论 -
spark 提交submit任务的shell脚本
*sudo -u hdfs /usr/hdp/2.6.5.0-292/spark2/bin/spark-submit –master yarn –deploy-mode cluster –driver-cores 1 –driver-memory 2g –num-executors 3 –executor-memory 1g –executor-cores 1 –class mai...原创 2019-03-22 10:56:58 · 2262 阅读 · 3 评论 -
mongodb nosql数据库updates 操作符集锦
$set$set update运算符将字段的值设置为指定的值。set(“quantity”, 11)$setOnInsert$setOnInsert update运算符将字段值设置为给定值,但仅当更新是导致插入文档的upsert时。setOnInsert(“defaultQuantity”, 10)$unset$unset update运算符删除具有给定名称的字段。unset(“q...原创 2019-03-22 11:36:49 · 422 阅读 · 0 评论 -
【转】 Hadoop HDFS本地存储目录结构解析
https://blog.csdn.net/opensure/article/details/51452058转载 2019-03-26 15:37:51 · 217 阅读 · 0 评论 -
[转]Spark中Executor内存中管理机制
https://www.jianshu.com/p/87e060d460e5转载 2019-03-26 16:32:14 · 172 阅读 · 0 评论 -
【转】Spark运行原理
http://www.sohu.com/a/217196727_100065429转载 2019-03-26 16:33:59 · 121 阅读 · 0 评论 -
Spark获取json 对象嵌套Json对象的方法【转】
https://blog.csdn.net/qq_21439395/article/details/80710180格式:{"appId":"10001","platform":"0","visitData":{"topicId":"15465"}}代码:df.select("visitData.topicId").show()结果:+-------+ |topicId| +-----...转载 2019-05-07 20:43:41 · 1596 阅读 · 0 评论 -
【转】Spark SQL 函数全集
放丢失,转载,感谢大神!https://blog.csdn.net/liam08/article/details/79663018Summary转载 2019-05-07 21:29:26 · 947 阅读 · 0 评论 -
重启集群之后,ambari与主机失去心跳无法恢复的解决办法
启动ambari服务表示已经存在:ERROR: ambari-agent already running异常:the server has not received a heartbeat from this host for more than 3 minutes 3分钟之后失去心跳了**=========================stop 启动 和restart 都不行,...原创 2018-11-12 20:22:02 · 4768 阅读 · 2 评论 -
spark性能优化事项参考
(1)使用Kryo进行序列化。在spark中主要有三个地方涉及到序列化:第一,在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输;第二,将自定义的类型作为RDD的泛型数据时(JavaRDD,Student是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现serializable借口;第三, 使用可序列化的持久化策略时,spark会将RDD中的每...原创 2018-11-12 09:50:48 · 177 阅读 · 0 评论 -
spark在idea中编写第一个程序时常见异常
Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties 18/09/12 10:18:05 INFO SparkContext: Running Spark version 1.6.3 18/09/12 10:18:07 ERROR SparkContext: Error initializ...原创 2018-09-12 14:26:56 · 4428 阅读 · 0 评论 -
正常启动SparkStreaming之后,但是一直获取不到数据
出现这样子的问题之后,我们将setMaster的值进行了一点点的修改 local[2]为什么?之前在进行setMaster的值时,当我们为local的时候,其实表示为local[1]那么就是告诉我们的程序,只执行一个处理线程。但是在现在通过socket的spark streaming来处理的话一个进程将不够用?为什么?因为一个进程需要处理还需要一个去获取数据为什么这两处进程不能衔接在...原创 2018-09-17 19:29:04 · 3265 阅读 · 0 评论 -
spark-streaming中经典算子:updateStateByKey的使用 --checkpoint
官方:updateStateByKey允许你在持续更新信息的过程中随意获取状态。想要使用这个输入流,你需要以下两步:1 定义状态–状态可以是任意的数据类型2 定义状态更新函数–指定一个如何更新状态的函数,该函数从输入流中获取前一个状态和新的值遇到的一个异常:Exception in thread "main" java.lang.IllegalArgumentExcepti原创 2018-09-18 18:06:31 · 1773 阅读 · 0 评论 -
CDH集群启动时的异常错误
在启动CDH集群的时候,两个错误:Inspector did not run successfullyIOException thrown while collecting data from host:没有到主机的路由Inspector did not run successfully:命令:ps -auxlgrep agent 检查agent的启动路径发现agent的启动有一个...原创 2018-09-21 10:40:54 · 5778 阅读 · 2 评论 -
HADOOP常见问题总结
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行剖析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常运用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。/etc/security/limits.confvi /etc/secur...转载 2018-10-14 22:21:57 · 246 阅读 · 0 评论 -
hadoop原生集群各个组件常用默认端口服务
Hdfs自定义端口:9000Yarn的web访问端口:8088Tomcat端口:8080Hdfsweb默认端口8020Hdfsweb访问端口:50070Hbase的web访问端口:10610Zookeeper默认端口:2181Broker 端口:9092 启动kafka的生产者的端口启动kafka的消费者的端口:zookeeper的2181Flume中netca的端口:4444...原创 2018-10-15 21:57:37 · 1080 阅读 · 0 评论 -
flume和kafka组件中常用的超长难记的命令示例
1.flume:flume启动配置文件.conf:flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger=INFO,console如果不需要打印日志信息在控制台:flume-ng agent --conf conf --conf-file example.conf --name a1...原创 2018-10-15 23:21:28 · 158 阅读 · 0 评论 -
sql语句中select语句检索的过滤
限制结果:1.distinct关键字 只返回不同的行,放在列名前,作用于查询的所有的列select distinc 列名 from 表名2.top 返回前多少行的数据select top 5 列名 form 表名 返回前5的行3.limit 5 offset 5 limit:返回多少行 offset 从第几行开始,默认是0开始,offset 1 是第二行sel...原创 2018-10-22 22:59:52 · 4855 阅读 · 2 评论 -
ambari集群中spark集群执行jar踩的坑
公司三台测试服务器,测试spark的集群模式是否正常运行遇到的问题:1.spark运行spark任务遇到的,SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application.参考博客:https://...原创 2018-11-06 14:38:40 · 1255 阅读 · 0 评论 -
搭建ambari过程中必需的本地池配置文件repo文件记录
1.ambari.repo#VERSION_NUMBER=2.6.2.2-1[ambari-2.6.2.2]name=ambari Version - ambari-2.6.2.2baseurl=http://master01/ambari/centos7/2.6.2.2-1/gpgcheck=0gpgkey=http://master01/ambari/centos7/2.6.2.2...原创 2018-11-06 14:54:40 · 1462 阅读 · 1 评论 -
spark-core 和spark-sql的区别
转自:http://www.cnblogs.com/zlslch/p/6685679.htmlSpark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的! Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构化数...转载 2018-11-10 17:45:25 · 4484 阅读 · 0 评论 -
YARN-Cluster和YARN-Client的区别
理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念:Application Master。在YARN中,每个Application实例都有一个ApplicationMaster进程,它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源,获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YA...转载 2018-11-13 10:55:55 · 673 阅读 · 0 评论 -
大数据之hbase的写数据过程详解
带着问题来寻找答案: 1.HBASE的读写过程就是HBASE的寻址过程 2.如何快速的寻找到地址? 3.为什么hbase可以快速的查询 写入数据? 4.Hbase的数据模型:底层存储的数据到底是怎么样的过程 ? 5.Hbase的数据模型设计:数据文件最终存储在hdfs的结构是怎么样的?并不是key value 客户端发起写数据请求 构建Put对象:一个Put对象代表一行数据记录,可以...原创 2018-08-14 23:28:57 · 12079 阅读 · 0 评论