自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 通用数据存储结构以及他们的时间复杂度

数据结构 查找 插入 删除 遍历 数组 O(N) O ( 1 ) O ( N ) --- 有序数组 O(logN)(二分查找) O(N) O(N) O(N) 链表 O(N) O(1) ...

2019-03-24 10:39:22

阅读数 140

评论数 0

原创 Java之BigInteger 和 BigDecimal

BigInteger 总所周知, java中 Long类型已经比较大了。 最小值是-9,223,372,036,854,775,808(-2^63); 最大值是9,223,372,036,854,775,807(2^63 -1); 如果我们使用的整数范围超过了long型怎么办?这个时候,就只...

2020-02-13 15:24:20

阅读数 2

评论数 0

原创 Flume 配置kafkaSource  ->  kafkaSink 出现循环发送消息到kafkaSource topic的问题

Flume 配置kafkaSource -> kafkaSink 出现循环发送消息到kafkaSource topic的问题 1.具体描述: 如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖...

2020-01-10 12:50:38

阅读数 24

评论数 0

原创 windows10平台上测试flume kafkaSource->kafkaSink

windows10平台上测试flume kafkaSource->kafkaSink 1.安装kafka 1.1 下载官网安装包 :http://kafka.apache.org/downloads Binary downloads:下的某一个版本即可 选择合适的版本 ...

2020-01-09 18:05:35

阅读数 11

评论数 0

原创 springBoot调用templates目录下的html页面

贴程序: IndexController.java package com.example.demo.controller; import org.springframework.boot.autoconfigure.EnableAutoConfiguration; import org....

2019-12-31 12:19:57

阅读数 22

评论数 0

原创 Oracle入门初试

目录 1.1建表语句: 建表语句①: 建表语句②: 1.2 表中数据 插入语句① 二、Oracle Commit 2.1什么是Commit 2.2 何时使用Commit 2.3 如何使用Commit Oracle数据库大小写敏感 1.1建表语句: 建表语句...

2019-10-28 17:11:22

阅读数 7

评论数 0

转载 reduceBykey和groupBykey的区别

通过源码可以发现: reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce...

2019-04-19 09:56:56

阅读数 77

评论数 0

原创 如何动态地向hadoop集群添加一个新节点

1.将namenode的hadoop文件全部复制到新节点。 2.修改每个节点的hosts文件,将节点四的名字加入进去。 3.配置ssh免密登录,使得namenode登录新节点的时候不需要输入密码。 4.修改各节点的slaves文件,加入新节点的名称。 5.单独启动该节点上的Datanode...

2019-04-19 09:47:09

阅读数 183

评论数 0

原创 hive 分区(partition)

Hive组织表到分区。它是将一个表到基于分区列,如日期,城市和部门的值相关方式。使用分区,很容易对数据进行部分查询。 例如,一个名为Tab1表包含雇员数据,如 id, name, dept 和yoj (即加盟年份)。假设需要检索所有在2012年加入,查询搜索整个表所需的信息员工的详细信息。但是,...

2019-04-07 11:19:43

阅读数 224

评论数 0

原创 hive搭建过程遇到的一些坑

首先解压那些就不说了,前提条件是你有hadoop集群,以及mysql来存储MetaData; 1.就是进入到hive里面去修改hive-env.xml 这个文件里面主要设置hadoop路径. 2.进入hive-site.xml里面去配置一些关于连接mysql的属性 其中第一二个属性...

2019-04-04 16:21:40

阅读数 50

评论数 0

原创 maven编译Spark失败 java.lang.OutOfMemoryError: Java heap space

刚开始执行mvn 编译命令的时候没添加选项 -e,出错之后没有错误提示,第二次加上了-e才有了下面两张截图 说明什么呢,编译时我们给JVM分配的Xmx不够,导致溢出,所以这个时候给maven指定一个大点的Xms值, export MAVEN_OPTS='-Xms256m -X...

2019-03-31 16:37:37

阅读数 185

评论数 0

原创 linux下编写sql脚本,以及命令行运行。

SQL语句可以在windows下navicat中编写,但是如果我们是在linux下命令行模式的话, 那我们就只能像编写shell脚本一样去编写sql脚本了,然后运行它,得到我们想要的结果。 #USE RUNOOB SHOW TABLES; SELECT * FROM runoob_tb1;...

2019-03-30 16:10:34

阅读数 1429

评论数 0

原创 SQL中where子句的一些使用技巧

区分大小写:最主要的就是知道使用“BINARY”,以及使用的位置: where子句中的一些运算符: = 等于 <> 不等于, 在sql的一些版本中也可以写作 != > 大于 < ...

2019-03-29 10:23:24

阅读数 819

评论数 0

原创 排序算法的比较

排序 平均情况 最坏情况 比较 附加存储 冒泡排序 O() O() 及格 不需要 选择排序 O() O() 良好 不需要 插入排序 O() O() 优良 不需要 希尔排序 O() ...

2019-03-24 11:06:04

阅读数 40

评论数 0

原创 Shell脚本中 for循环中的一个小问题

@Description: 起初是想编写一个shell脚本,在主节点master上执行,效果是ssh到各从节点,然后关闭, 结果后面发现,我将shutdown命令换行再写之后就出现了问题,它ssh到从节点之后,又会返回主节点, 这时候才执行第二行命令。就很纳闷,期间它ssh到节点1之后,...

2019-03-24 09:57:24

阅读数 336

评论数 0

原创 通过ssh远程连接VMware中ubuntu虚拟机的时候,无法连接,出现Connection refused!!

问题描述:连接不上之后,就去虚拟机找问题,最后发现一直打不开port22,刚开始还能找到sshd进程,重新下载ssh之后反而什么有关进程都没有了,port22也看不见了,最气人的是一直升级apt-get install openssh-server也没用,甚至update也不行。 最后完全卸载重装...

2019-03-17 21:43:39

阅读数 634

评论数 0

原创 MySQL 为用户更改密码

当想要更改一个用户的密码的时候,直接输入mysqladmin -u {username} -p password {newpassword}就可以 我是因为之前使用的命令有误。 当你输入正确的命令之后,系统会让你输入这个用户之前的密码。只有当你正确输入之前密码之后,才会更改。 ...

2018-11-17 15:24:27

阅读数 91

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part six

NetCat TCP source netcat-like源 会监听一个给出的端口,并且将文本的每一行转化成一个事件。 命令就像 nc -k -l [host] [port] 换句话说, 它打开了一个特定的端口并且监听数据。 期望提供的数据是换行符分割文本。 每行文本都会转换成flume事件...

2018-11-03 11:33:35

阅读数 31

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part five

kafka 源: Kafka 源是Apache Kafka 消耗者,读取来自kafka主题的信息。如果你有多个Kafka源在运行,你可以给他们配置一样的使用者群组,以便每个源都读取一组唯一的主题分区。 要注意的是:Kafka源重写了两个kafka消费者属性,auto...

2018-10-21 14:55:17

阅读数 391

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part four

JMS 源: jms源阅读从jms目的地发来的信息,例如队列,主题等。 作为一个jms应用程序,他应该和jms提供程序一起工作,但是仅使用ActiveMQ进行测试。JMS源提供可配置的批量大小,消息选择器,用户/传递还有消息到接收器事件转换器。 要注意的是,供应商提供的jms jar包 应该包...

2018-10-21 10:32:17

阅读数 39

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part three

flume 源 avro 源 监听 Avro的端口和从外部的Avro客户端数据流接收事件,当built-Avro 接收器和另一个流代理配对时,他可以创建层列式收集拓扑,所需的属性用粗体表示了: Example for agent named a1: a1.sources ...

2018-10-20 15:24:59

阅读数 53

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part two

配置个体组件: 当你定义了这个流之后,你需要去设置每个资源、接收器、信道的属性。这是在你设置组件类型和每个组件的特定属性值的同一层命名空间内完成的。 # properties for sources &lt;Agent&gt;.sources.&lt;Sourc...

2018-10-20 13:55:03

阅读数 29

评论数 0

原创 Flume.apache.org 官方文档学习笔记 part one

Apache Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集,聚合和移动大量日志数据到集中式数据存储。 Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电...

2018-10-20 09:41:27

阅读数 38

评论数 0

原创 Hadoop ——mapreduce——partitioner 理解

partitioner是在mapreduce的map过程之后,将mapper输出文件分成几个文件,再交由reducer处理。 之前老以为是在reducer阶段进行的partitioner,所以导致自己写了分区类,有了不同的文件输出,但是输出文件中的其中一个文件什么都没有。 code: ...

2018-10-19 16:13:04

阅读数 64

评论数 0

原创 Apache Hadoop YARN (官网文章)

yarn的根本目标是为了分散资源管理还有任务调度以及监视功能到分离的守护进程。这个目的是拥有一个全局ResourceManager 和每个应用程序。 应用程序可以是单个作业,也可以是作业的DAG。 resource manager和node manager 构成了数据计算框架。 resource...

2018-10-18 15:00:21

阅读数 54

评论数 0

原创 hadoop官网 阅读之 MR Support for YARN Shared Cache

Overview MapReduce 支持yarn共享缓存,允许mapreduce利用额外的资源缓存。 他保存了作业提交客户端和yarn集群之间的网络带宽。这会节约reduce工作的提交时间和所有工作的运行时间。 Enabling/Disabling the shared cache 首先...

2018-10-18 13:44:02

阅读数 53

评论数 0

原创 MapReduce 统计手机用户的上行流量,下行流量,总流量,并对输出的结果进行倒序排序。(二),划分省份,输出到不同的文件

在(一)的基础上,写一个自己的partitioner就好了。 分区的默认实现HashPartitioner,它根据key的hashcode和Interger. 在Reduce过程中,可以根据实际需求(比如按某个维度进行归档,类似于数据库的分组),把Map完的数据Reduce到不同的文件中。...

2018-10-17 18:57:24

阅读数 328

评论数 0

原创 MapReduce 统计手机用户的上行流量,下行流量,总流量,并对输出的结果进行倒序排序。(一)

首先,要知道hadoop自带的LongWritable 是没办法存储三个变量,即用户的上行流量,下行流量,总流量。 这个时候,没办法,你就要去写一个属于你自己的接口,去实现能够放入这三个数据。 MapReduce中传输自定义数据类型(Bean-&gt;setter+getter) (1...

2018-10-17 16:06:42

阅读数 692

评论数 0

原创 windows10下 eclipse连接虚拟机中的Hadoop伪分布式集群

在windows用eclipse连接hadoop之后,可以便于进行mapreduce开发,非常方便,如果在虚拟机里面用eclipse的话 ,emmmmmm,你会卡到怀疑人生。 首先需要去下载eclipse,这个直接官网就ok link:https://www.eclipse.org/do...

2018-08-21 13:13:53

阅读数 685

评论数 0

原创 hadoop集群启动后,发现所有进程都在,唯独没有master节点的namenode进程

这个时候,去logs/目录下查看日志 cat hadoop-had_user-namenode-master.log 得到结果: java.io.IOException: There appears to be a gap in the edit log. We expected txid ...

2018-08-12 11:11:52

阅读数 2235

评论数 0

原创 hadoop集群启动之后,datanode进程未启动解决办法

这种情况一般是由于自己进行hadoop格式化的时候没有事先结束所有进程,或者在开启一次hadoop集群,发现配置不对,这时重新 hadoop namenode -format 就会出问题 因为此时你format之后, datanode的clusterID 和 namenode的clusterID...

2018-08-12 10:13:56

阅读数 1045

评论数 1

原创 解决ubuntu重启之后,dns设置失效的问题

在学习hadoop的过程中,需要搭建伪分布式环境,需要用到linux系统。 在设置Ubuntu虚拟机网络环境的时候,发现重启之后,dns就失效了 之前修改的是 /etc/resolv.conf 在里面写了nameserver 结果没注意看文件的提示 叫我不要手动修改,改了也么用,会被重...

2018-07-16 16:11:52

阅读数 1362

评论数 0

原创 CentOS 6.8 永久修改DNS地址的方法

1、配置ip地址文件 /etc/sysconfig/network-scripts/ifcfg-eth0 添加一行 DNS1=114.114.114.114 #手动添加一个dns地址; DNS配置文件/etc/resolv.conf 的地址会自动匹配手动添加的地址;重启网卡后不会清除; 2、手...

2018-06-29 09:50:50

阅读数 6162

评论数 0

原创 解决 CentOS和Ubuntu下 virt-manager方格乱码的问题

只是因为没有相应的字体而已,下载就好了。 CentOS 下: yum installdejavu-lgc-sans-fonts。 Ubuntu下: apt install font-manager apt install fonts-arphic-ukai apt install...

2018-06-29 09:30:32

阅读数 410

评论数 0

原创 python3 HTTP Error 403:Forbidden(网站对爬虫做了限制)

一般当你的爬虫程序爬起来以后,出现这种情况就是因为你要爬取的网站对爬虫进行了限制。 真小气!!! 直接用火狐浏览器去查看他的User-Agent就可以了 然后: def getHtml(url): headers={'User-Agent':'Mozi...

2018-06-17 08:56:18

阅读数 15404

评论数 6

原创 Python3解决UnicodeDecodeError:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

有两种办法: 这个时候可以选择修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如: html....

2018-06-17 08:51:21

阅读数 10316

评论数 5

原创 Hadoop启动错误--没有datanode or namenode

最近在自学hadoop,处于前期配置阶段,遇到好一些问题,这个问题比较经典,记录一下。 这有可能是因为我每次关闭服务器的时候,没有执行stop-all.sh 命令停止Hadoop。解决方法如下: (1)首先,运行stop-all.sh (2)检查masters文件和slaves文件 配置有无...

2018-06-13 19:26:47

阅读数 1057

评论数 0

原创 python抓取新浪新闻的分页连结

第一步: 先找到新闻资讯存在的那个非同步存取的链接,该链接一般位在js那个分类下。 然后把这个链接给requests 让它存取内部的资料。 取到之后你会发现,这个内容前后两边有保护层,即一个“(”和 “);”,这个时候可以用lstrip和rstrip去截掉这些多余的字符串。 最后返回的...

2018-06-12 10:34:10

阅读数 352

评论数 0

原创 python爬虫爬取新浪新闻的评论数以及部分评论

首先应该去找到评论数所对应的网页元素: 可以大致猜测,这里是用JavaScript·去计算评论数量的。 刷新页面,去观测页面的js部分,有没有对应的链接,仔细查看: 找到之后,点击Preview,看到内部结构: 可以看出count部分,total代表了参与人数,show字段代表...

2018-06-10 20:11:06

阅读数 3312

评论数 0

原创 python爬虫之抓取网页新闻标题与链接

用chrome的原生工具--检查,找查网页标题与链接对应的元素 可看到,大标题‘中兴与美商务部达成和解协议:支付10亿美元罚款’对应的网页元素是: &lt;h1 class="main-title"&gt;中兴与美商务部达成和解协议:支付10亿美元罚...

2018-06-09 10:52:47

阅读数 4446

评论数 1

提示
确定要删除当前文章?
取消 删除