看朱成碧_-CSDN博客

原创 Spark Streaming 性能调优指南

要在集群上的Spark Streaming应用程序中获得最佳性能，需要进行一些调整。本文介绍了如何调整参数和配置以提高应用程序性能。这些主要是基于以下两个层次进行考量的。过有效使用群集资源减少每批数据的处理时间。设置正确的批处理大小，以便可以按接收到的批处理速度处理一批数据（也就是说，数据处理跟上数据拉取的速度）。1、减少批处理时间Spark可以进行很多优化，以最大程度地减少每批的处理时间。下面进行简单介绍。1.1...

2020-06-19 13:39:21 663

原创 Sqoop实用指南

Sqoop实用指南Sqoop简介Sqoop安装指南1、下载Sqoop安装包、配置环境变量2、重命名配置文件3、修改sqoop.env.shSqoop使用指南4、把mysql的数据导入hdfs中5、把hdfs中的数据导入到mysql中6、列出mysql数据库中的所有数据库7、连接mysql并列出数据库中的表8、将关系型数据的表结构复制到hive中9、将数据从关系数据库导入文件到hive表中10、将hive中的表数据导入到mysql数据库表中11、将数据从关系数据库导入文件到hive表中，--query 语句使

2020-05-22 14:03:44 715 5

原创 Spark的四种运行模式详解

前言Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、Spark on YARN模式或者Spark on mesos模式。Spark的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同，但它们的目的基本都是一致的，就是在合适的位置安全可靠的根据用户的配置和Job的需

2020-05-22 10:40:06 10738 6

原创 Hive优化策略大全

Hive优化 Hive的存储层依托于HDFS，Hive的计算层依托于MapReduce，一般Hive的执行效率主要取决于SQL语句的执行效率，因此，Hive的优化的核心思想是MapReduce的优化。1、查看Hive执行计划（小白慎用） Hive的SQL语句在执行之前需要将SQL语句转换成MapReduce任务，因此需要了解具体的转换过程，可以在SQL语句中输入如下命令查看具体的执行...

2020-04-24 20:36:54 797 2

原创 Hive 语法操作大全

前面介绍了Hive的理论基础以及安装Hive，这篇文章主要介绍Hive的基础数据结构和建表，插入数据等一些基本的操作。注：本人使用的Hive版本为Hive1.2.1，hadoop版本为2.6.4，mysql版本为5.7.26。...

2020-04-22 21:50:15 1487 6

原创 MapReduce任务调度和资源管理

MapReduce任务调度和资源管理MapReduce任务调度和资源管理主要的目的是解决如何去选择一个合适的节点去执行 Task。一个集群里有很多台机器，每台机器都拥有各自的资源，如剩余内存量，核数，网络带宽，磁盘容量等。资源管理者必须要知道这些节点的可用资源才能对任务进行合理分配调度，那么MapReduce是如何进行任务调度的呢？这就涉及到MapReduce的任务调度模型了。在MapRed...

2020-04-18 23:26:47 3634 5

原创容器化及容器编排

前言近几年随着容器化技术的成熟，服务上云已是大势所趋，但服务上云的同时，也要解决服务的运维问题(如部署、编排、扩缩容、服务监控等)，因此需要一个功能全面且易上手的应用进行服务治理，本篇将主要介绍传统服务部署、管理方式的缺陷，以及服务容器化的优点。......

2022-08-13 12:10:53 883

原创 libstdc++.so.6: undefined reference to `__cxa_thread_atexit_impl@glibc_2.18‘ 解决办法

解决办法这个问题是因为GCLIB版本与工程所需版本不一致导致的，具体表现为编译时报错：“libstdc++.so.6: undefined reference to `__cxa_thread_atexit_impl@glibc_2.18’”，可依据下列语句安装glibc-2.18版本，再重新编译即可解决问题。curl -O http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gztar zxf glibc-2.18.tar.gzcd glibc-2.18/mk

2021-07-30 15:26:16 4932

原创 git 快速上手

前言对于很多初入职场的小伙伴来说，git是一个很陌生的代码管理工具，我们可能为了完成期末大作业而访问过github，但真正使用git管理代码的经验可能不多，本文以作者自身的使用经历为例，介绍一下接触git将近两个月中，常用到的一些命令。1. 从代码仓库导入项目到本地...

2021-05-05 17:00:35 559

原创＜urlopen error [Errno 104] Connection reset by peer＞

使用python写一个脚本调用接口时，报了这个错，在“urllib.request.urlopen(req, context=context)”这个方法中报错。错误原因发送的req size过大，导致服务端拒绝了该请求，重置了连接，并抛出错误。并且，[Errno 104] Connection reset by peer>这个错误也有可能是浏览器的问题，也有可能是URL链接到墙外了。解决办法捕获错误并直接pass掉。为了让后面的请求继续执行，可以先搁置这个错误，使用try catch捕获它，

2021-03-28 12:16:08 6687

原创 Error:run after build is not possible/main file has non-main package or doesn‘t contain main functio

错误说明Error:run after build is not possible/main file has non-main package or doesn’t contain main functio包名与main函数名称不一致。如下图：将包名改为主函数名即可解决问题。

2021-02-25 21:12:00 1652

原创 latex常用命令常见问题

前言最近忙着写毕业论文，使用latex时遇到一些问题，这里对需要掌握的基本命令及遇到的问题做一个简单的总结。常用命令插入单张图片\begin{figure}[ht]\centering ##设置图片居中\includegraphics[scale=0.6]{figures/XXX.png}\caption{红楼梦人物出场次数分布}\label{fig:pathdemo}\end{figure}插入并排图片\begin{figure}[htbp] %[htbp]中的h

2021-02-23 21:50:22 4719

原创 LFR基准网络各参数及其说明

LFR算法用于生成不同特性的人工基准网络，源于2008年的论文论文《Benchmark graphs for testing community detection algorithms》，作者是Lancichinetti A , Fortunato S , Radicchi F 。其可以接受的参数及其说明如下：

2021-01-07 16:00:12 4010 5

原创 2021秋招回顾

磕磕绊绊，秋招算是正式结束了，拿到了腾讯、百度、网易、京东、58、搜狐、米哈游等公司的offer，大数据和后端都有，最终决定加入百度做后端开发，感谢各位面试官的赏识，希望大家都能越来越好。在这里也随便写点东西纪念一下，同时对秋招作个总结。注：博主暑期在华为实习，回来有点晚，错过了正式批，上面的ofr只有58是正式批拿到的，其余都是补招上岸，所以说还没拿到心仪ofr的同学也不必过于灰心，还是有机会的。简历篇说句题外话，博主一直觉得秋招非找大数据不可，于是前期简历全投大数据，后来发现小伙伴笔试分.

2020-12-21 21:29:28 537

原创【工业化面试】之聊一聊如何在面试中讲好自己的项目

前言项目可以说是我们面试环节中最重要的部分了，从面试官的角度出发，他需要了解你是否真的参与过这个项目，在这个项目中做了哪些工作，有没有什么亮眼的设计。从应聘者的角度出发，我们需要用尽量简洁的话语向面试官展示我们项目的目标、数据、总体设计、自己负责的工作已经点睛之笔在哪里。下面我将以一个例子来展示如何博得面试官的好感。正文面试官：介绍一下你的项目吧介绍项目要讲究章法，不能一通乱讲，讲完了连自己都不知道自己在讲什么。那么要怎么讲呢？首先，介绍项目的背景和目的，然后，介绍项目的数据来源，然后介绍项

2020-12-12 15:10:18 851 2

原创【工业化面试】之设计模式

前言设计模式是后端开发(主要指java开发)面试中必不可少的考察内容之一，但是设计模式总共有23种之多，全部掌握需要很长时间，本文从面试的角度出发，总结了以下几个常考的设计模式(面试官通常会问我们了解哪些设计模式，这时候就是我们自由发挥的时间，讲好了会加分)。正文1、单例模式确保每个类只有一个实例，并提供公共接口供全局访问。主要结构是：私有的构造函数、私有的静态变量、公有的静态函数实现。懒汉式：需要使用时才初始化对象实例。饿汉式：一开始就初始化好对象。单例模式代码(双检锁)：p

2020-12-12 13:30:16 199

原创浅谈java基础

Java基础篇1、创建对象有几种方式？有4种显式地创建对bai象的方式：1.用new语句创建对象，这是zhi最常用的创建对象的方式。2.运用反射手段，调用Java.lang.Class或者java.lang.reflect.Constructor类的newInstance()实例方法。3.调用对象的clone()方法。4.运用反序列化手段，调用java.io.ObjectInputStream对象的readObject()方法。2、 OOM的几种情况？1、堆内存溢出,报(Java hea

2020-11-10 21:14:32 690

原创【工业化面试】之计算机网络

1、简述三次握手和四次挥手的过程？三次握手：（1）首先客户端向服务器端发送一段TCP报文，其中：标记位为SYN，表示“请求建立新连接”;序号为Seq=X（X一般为1）；随后客户端进入SYN-SENT阶段。（2）服务器端接收到来自客户端的TCP报文之后，结束LISTEN阶段。并返回一段TCP报文，其中：标志位为SYN和ACK，表示“确认客户端的报文Seq序号有效，服务器能正常接收客户端发送的数据，并同意创建新连接”（即告诉客户端，服务器收到了你的数据）；序号为Seq=y；确认号为Ack

2020-10-30 09:37:03 251 1

原创 Visio 2013打开自动关闭，闪退的解决办法

问题描述visio 2013安装完成后，新建流程图或者打开流程图，程序就会自动关闭，为了找到错误，我们打开“控制面板->事件查看器->windows事件日志”可以看到一个错误日志，错误如下：错误应用程序名称: VISIO.EXE，版本: 15.0.4420.1017，时间戳: 0x506742a9错误模块名称: VISLIB.dll，版本: 15.0.4420.1017，时间戳: 0x506741bc异常代码: 0xc0000005错误偏移量: 0x000000000010a887错

2020-08-17 17:07:27 37516 3

原创 Query failed Function unix_timestamp not registered

问题描述在一个业务场景下，需要将字符串转换成时间戳然后按时间戳大小排序，故使用unix_timestamp函数，问题中很明显提到这个unix_timestamp函数未被注册，意思就是不支持这个函数，我注意到这个函数在Hive中可以运行，但是在Presto中无法运行。解决办法将语句进行修改：select sql from job_table order by preority,unix_timestamp(create_time)修改为：select * from hive.default.job

2020-08-14 09:52:37 4078

原创 Excel读取表格数据并打印出来

前言因业务需求，博主的代码只读取1列数据并储存到ArrayList中，有别的需求的小伙伴可自行修改。1、maven依赖<dependencies> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.

2020-08-07 13:51:30 967

原创 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path

问题描述presto-examples-1.0-SNAPSHOT-jar-with-dependencies.jar在集群内节点运行时正常，但在集群外节点运行PrestoJDBCExample连接开启Kerberos认证的集群缺少证书，报错如下:java.sql.SQLException: Error executing query atcom.facebook.presto.jdbc.PrestoStatement.internalExecute(PrestoStatement.ja

2020-08-04 10:04:53 589

原创 ImportError: Could not find ‘cudart64_90.dll‘. TensorFlow

问题描述跑机器学习代码时遇到这个问题原因安装了错误的CUDA版本，例如本人安装的是2.3的tensorFlow，但是又安装了9.2的CUDA，应该为9.0版本的CUDA才对。解决办法安装9.0CUDA，或者安装与9.2CUDA版本对应的TensorFlow。CUDA下载链接：https://developer.nvidia.com/cuda-toolkitCUDNN下载链接：https://developer.nvidia.com/cudnn...

2020-07-28 21:10:41 561

原创 OpenJDK 64-Bit Server VM warning: Insufficient space for shared memory file:

待写

2020-07-23 19:42:43 4061

原创 beeline “Invalid Path“ “No files matching path file(state=42000,code=40000)“ 解决办法

问题描述从本地导入数据到Hive表中出现该问题。

2020-07-23 19:25:50 6286

原创 MongoDB 常见命令

1、数据库操作1.1 创建数据库use DATABASE_NAME如果use的数据库不存在，那么会创建这个数据库。> use newbdswitched to db newdb> dbnewdb> 1.2 查看数据库show dbs> show dbsadmin 0.000GBnewdb 0.000GBlocal 0.000GB1.3 删除数据库db.dropDatabase()> use newdbswitched to

2020-07-18 17:03:01 210

原创 Source file system should be “file“ if “local“ is specified

问题描述使用windows系统上传文件时遇到了这个问题，上传文件的语句没有问题，也加了local，但是无法上传文件到hive，测试了一下，可以上传文件到HDFS中，但是一旦要上传到Hive中就报这个错误：Source file system should be "file" if "local" is specified解决办法使用linux系统上传。...

2020-07-11 12:18:56 2502

原创【工业化面试】之Redis zset是如何实现的？

1、什么是zset?zset是 Redis五种数据结构中的一种（String、List、Hash、Set、Zset）。也称为sortedSet，它类似于Java里面是soretdSet和HashMap的结合体，因为它本身具有HashSet中不含重复元素的特性，又包含了SortedSet中内部有序的特性(通过传入一个score，根据score来排序)。但它内部的数据结构却与上述两种完全不同，它内部是通过一种名为 SkipList(跳跃表) 的数据结构来实现的。2、什么是skipList?SkipList

2020-07-07 21:42:28 1308

原创 No matching distribution found for XXX (from -r requirements.txt (line 2))

sss

2020-07-04 20:08:38 8608 1

原创安装Pytorch No module named ‘tools.nnwrap解决办法

sss

2020-07-02 23:09:58 1388

原创 spark数据倾斜怎么解决？

1、在项目中有遇到过数据倾斜吗？首先要知道什么是数据倾斜。我们知道，在执行shuffle操作的时候，相同的key对应的value一定会被分配到同一个reducetask中去处理，所以当一批数据中相同key的数据过多，就会导致一个reducetask迟迟跑不完。现在我们来定义一下数据倾斜的概念：一批数据中相同key的数据过多而导致其他reducetask跑完，而一个reducetask迟迟跑不完，甚至触发OOM的现象，称为数据倾斜。在面试的时候，就算没有遇到过这个问题，我们也要回答遇到过，因为数据倾斜是大

2020-07-02 21:57:54 497

原创浅谈Redis

1、Redis是什么？redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性

2020-06-27 17:12:28 1808

原创 java.io.IOException: Could not locate executablenull\bin\winutils.exe in the Hadoop binaries错误解决办法

问题描述java.io.IOException: Could not locate executable，主要问题是我们虽然设置了本地运行模式val conf = new SparkConf() conf.setAppName("wordcount") conf.setMaster("local") //单击本地运行，但是本地却没有Hadoop环境可运行，所以会报错。解决办法需要一个在windows环境下的hadoop包，并且需要配置环境变量，这里我已经编好了一份hadoop2.6.4 windows

2020-06-21 21:04:57 1529

原创 class scala.collection.mutable.WrappedArray overrides final method toBuffer错误

问题描述class scala.collection.mutable.WrappedArray overrides final method toBuffer.本质上是因为我们使用的SDK和Spark版本不兼容导致的，例如我的spark版本是spark 2.3.4，而我使用了scala-sdk 2.13.2，就导致了这个错误。PS：吐槽一下sdk向后兼容做的真的不太好(CUDA也是)解决办法下载适合你的spark版本的scala-sdk版本，这里给出一份版本对应关系表。spark版本s

2020-06-21 17:51:39 4331 8

原创虚拟机ping不通百度的解决办法

注意本文提出的问题的前提条件是：主机和虚拟机互相能ping通，主机能ping通外网，虚拟机不能ping通外网。解决办法出现这个问题，很可能是你的网关设置错误了，首先执行cat /etc/sysconfig/network-scripts/ifcfg-eth0命令查看网关。我的是：DEVICE=eth0HWADDR=00:0C:29:B1:2B:81TYPE=EthernetUUID=e576efc7-0d53-4c30-b32c-494c9880ac28ONBOOT=yesNM_CONTR

2020-06-21 14:45:49 40177 19

原创 ERROR 2003 (HY000): Cant connect to MySQL server on localhost(10061)

问题描述新手安装mysql时通常会遇到这个问题，Can’t connect to MySQL server on localhost 意思是无法连接到mysql服务器，原因是执行了mysql --install之后直接登录，因为这时候只是安装了mysql服务，并没有启动这个服务。解决办法1.搜索‘服务’2. 找到‘MYSQL’服务并启动3. 重新登录mysql...

2020-06-21 13:40:59 1129

原创 Spark性能调优官方指南

Spark性能调优官方指南1、数据序列化2、内存调优2.1 内存管理概述2.2 确定内存消耗2.3 调整数据结构2.4 序列化RDD存储2.5 垃圾回收器优化2.5.1 衡量GC的影响2.5.2 高级GC调整3、其他注意事项3.1 并行度3.2 Reduce Task的内存使用3.3 广播”大变量“3.4 数据本地性前言由于大多数Spark计算基于内存的性质，群集中任何资源（CPU，网络带宽或内存）都可能成为Spark程序的性能瓶颈。通常，如果数据和内存合适，则瓶颈是网络带宽，但是有时，我们还需要进行一

2020-06-16 21:05:40 1562

原创【工业化面试】在地址栏输入URL后，发生了什么？

前言地址栏输入 URL 发生了什么？这是面试中常考的一个问题，现在我们来详细梳理一下输入URL后究竟发生了什么。正文1、浏览器解析域名在我们输入URL后，浏览器首先会从本地DNS中查看我们想访问的URL是否被缓存，如果被缓存过，直接返回IP地址，如果没有被缓存，浏览器就会发起系统调用，在C盘的hosts文件中查看是否配置了这个IP地址和URL的映射，如果还是没有找到，就会向互联网中发起一个DNS查询。在这里我们可以介绍一下DNS的概念(又可以拖几分钟哈哈)，DNS 的全称是 Domain Name

2020-06-11 22:56:29 342

原创 Spark Streaming官方编程指南【上】

定义Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像 Kafka, Flume, Kinesis，或TCP socket等来源摄入，并且可以使用与像高级别功能表达复杂的算法来处理map，reduce，join和window。最后，可以将处理后的数据推送到文件系统，数据库和实时面板。并且，我们可以在数据流上应用Spark的机器学习和图形处理算法。在内部，它的工作方式如下。Spark Streaming接收实时输入数据流，并将数据

2020-06-10 16:00:19 1237 7

原创复杂网络中衡量网络中节点中心性的几种度量指标

1、Degree Centrality(度中心性)1.1 定义度中心性（Degree Centrality）是在网络分析中刻画节点中心性（Centrality）的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。1.2 计算方法在无向图（Undirected Graph）中，度中心性测量网络中一个节点与所有其它节点相联系的程度。对于一个拥有g个节点的无向图，节点iii的度中心性是iii与其它g−1g-1g−1个节点的直接联系总数，用矩阵表示如下：CD(Ni

2020-06-09 11:03:21 28962 7

基于storm实现的日志监控系统源码.zip

使用log4j生成日志信息，使用flume对日志进行监控并采集，将采集到的数据放到kafka中使用storm对数据进行清洗和标准化，FilterBolt对error，warning等单词进行过滤，NotifyBolt触发规则之后，会往用户的邮箱发送邮件并发送短信通知用户。

2020-05-17

win10下的hadoop2.6.4.zip

本资源是为了能在windows下跑mapreduce程序，对hadoop2.6.4进行重新编译而产生的，下载解压，然后到你的hadoop2.6.4的windows安装目录下，直接覆盖bin文件夹和lib文件夹即可，保证有效。

2020-05-16

spark点击流数据

内含13W+点击流数据，均已处理成结构化数据，可以直接用于统计操作。数据格式： 158.189.122.206 江西 2018-11-12 1542011090255 341319664806502161 www.taobao.com Regist 103.190.42.13 江苏 2018-11-12 1542011090255 4152752257070526126 www.baidu.com View 103.190.42.13 江苏 2018-11-12 1542011090255 4152752257070526126 www.taobao.com Buy

2020-05-03

spark-branch-2.3.zip

windows10下的IDEA源码zip包，版本为2.3。下载解压，直接使用IDEA打开，等待maven下载好依赖包即可开始阅读源码。

2020-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人