南山鱼蛋哥-CSDN博客

转载 HashMap、Hashtable、ConcurrentHashMap的原理与区别

面试必备：HashMap、Hashtable、ConcurrentHashMap的原理与区别下面直接来干货，先说这三个Map的区别：HashTable底层数组+链表实现，无论key还是value都不能为null，线程安全，实现线程安全的方式是在修改数据时锁住整个HashTable，效率低，ConcurrentHashMap做了相关优化初始size为11，扩容：newsize ...

2018-10-15 18:53:57 118

原创多台机器下本地缓存一致性解决(附带源码链接)

多机本地缓存定点打击同步，使用技巧，源码分享，解决性能问题大杀器

2022-09-09 12:03:53 1561 1

原创大数据与人工智能入门到放弃（10 回顾篇 HBase java api操作）

记：最近在公司写单元测试，因为要涉及到周任务达标问题，所以天天加班，今天周末，安排一波Hbase完全分布式的搭建安装HBase java api操作在很多情况下，操作hbase不是在命令行直接操作的，所以有了很多api，这里我用java api进行操作。所以打开eclipse。1.解压hbase，然后把lib下的jar包拷贝到eclipse中；2.选中那些jar包，bulid ...

2019-10-26 23:55:49 202

原创大数据与人工智能入门到放弃（09 回顾篇 HBase完成分布式安装）

记：最近在公司写单元测试，因为要涉及到周任务达标问题，所以天天加班，今天周末，安排一波Hbase完全分布式的搭建安装HBase完成分布式安装这里我用的0.98的版本，附上下载地址https://archive.apache.org/dist/hbase，下载完成后上传到master机器，这里我集群的分布为：资源有限，我总共有3台虚拟机，机器名字分别为master，node1，node2...

2019-09-21 13:31:44 237

原创大数据与人工智能入门到放弃（08 回顾篇 Hive多节点环境搭建）

记：这是在加班时写的Hive多节点环境搭建在上一篇文章中，搭建单节点的hive时，我在master装了单机的hive；node2中安装了mysql，所以是node2进行hive的元数据管理服务；所以这次决定不去破坏hive的单节点；搭建多hive多节点时，我把机器node1作为客户端，node2作为服务端。(搭建过程可参考官网的多节点搭建配置https://cwiki.apach...

2019-09-05 23:12:02 278

原创大数据与人工智能入门到放弃（07 回顾篇 Hive单节点环境搭建与mysql）

记：最近空闲时间都在刷算法题，所以没怎么更新，这次趁着周末，安排一波搭建Hive需要先做什么？用一台服务器作为mysql服务器，因为hive的元数据会存储在mysql中，所以下面就是选我的机器node2作为mysql服务。在这台机器上安装mysql，输入命令yum install mysql-server即可。安装完成后输入mysql，会出现如图7-1，说明未启动mysql服务。输...

2019-09-01 17:26:52 204

原创大数据与人工智能入门到放弃（06 回顾篇配置yarn高可用环境）

记：最近任务有点多，多到天天加班修改配置文件搭建过程可参考hadoop官方文档进入hadoop目录下中etc目录下的hadoop目录修改文件，如下操作，首先修改文件名，然后配置文件，此次搭建高可用的主备ResourceManager服务是在master和node2，修改文件以主机master为例，修改完直接分发到node1和node2.[root@master hadoop]...

2019-08-31 19:41:32 182

原创大数据与人工智能入门到放弃（05 回顾篇配置window系统下hadoop的运行环境）

记下午睡了觉，因为把耳机放公司了，所以叫了同事去帮我拿耳机，没耳机的我没心情写东西，就躺了一下午，耳机回来后，开刚。准备hadoop包统一用和Linux里安装的hadoop版本，即为hadoop-2.7.5。还有要准备好hadoop在window环境下编译的文件，文件链接为：链接：https://pan.baidu.com/s/1N_pXCB3fPU6NhIxgdj39mw 提...

2019-08-17 22:34:04 175

原创大数据与人工智能入门到放弃（04 回顾篇 hadoop高可用【HA】的搭建）

记：最近公司任务比较多，所以小忙之中，在晚上抽出一丢丢时间来搭建Hadoop的高可用集群。集群规划准备此次搭建是在03篇中搭建好完全分布式的情况下进行修改。因为机器配置受限，但是为了能搭建出来高可用的集群效果。所以把主、备NameNode启动在节点为master，node1的机器上，master，node1，node2上都配置启动了JournalNodes进程(为了两个NameNode...

2019-08-17 14:11:29 165

原创大数据与人工智能入门到放弃（03 回顾篇 hadoop完全分布式安装配置）

记：下班后洗个澡，趁着昨天写完伪分布式，今天继续就来一波Hadoop完全分布式的配置。准备环境包括昨天的一台master节点，还需另外准备2台节点，我还将master也设置成从节点，不仅有namenode而且还有datanode。所以最后的效果应该是，1台namenode和3台datanode，其中有一台节点datanode和namenode共存。因为穷，我还将secondarynam...

2019-08-13 23:52:05 167

原创大数据与人工智能入门到放弃（02 回顾篇 jdk安装与ssh免密登录配置，hadoop伪分布式配置）

记：最近酒店到期，所以忙于租房找房子，搬家，晚上下班的空余时间，写完这一篇。准备好jdk和hadoop压缩包这里我jdk选用的是jdk-8u191-linux-x64.tar.gz，hadoop选用的是hadoop-2.7.5.tar.gz。这里我就选用一台虚拟机来作为配置的例子，将包上传到linux虚拟机。为了统一管理，我将jdk解压到了/usr/java/目录下，如图2-1。...

2019-08-13 00:22:12 179

原创大数据与人工智能入门到放弃（01 回顾篇linux--网络，服务，克隆）

前言：为了从头到尾的搞透（了解运用）大数据和AI，所以从今天开始，决定从头开始，从0开始回顾，到项目实战，在工作之余能抽出时间来完善大数据和AI的学习的过程，所以会从项目的搭建过程开始做起，每周至少3次更新博客，希望不会放弃。做这些记录的原因是为了回顾学过的东西，技术的东西，一旦很久不用这项技术就会很快忘记，所以目的是让以后来回顾自己的记录。学大数据至少搞懂得java基础，或者python，然...

2019-08-04 02:26:23 312

原创 kafka0.8的安装

1.下载Kafka安装包 2.上传安装包 3.解压 4.修改配置文件 config/server.properties broker.id=0 host.name=主机名 log.dirs=/data/kafka zookeeper.connect=master:2181,slave1:2181,slave2:...

2019-06-24 18:04:30 565

原创 nginx安装

一.到官网直接下载nginx源码包二.下载完再上传到linux服务器，并且解压三.进入源码目录进行预编译 1.（第一次预编译可能会遇见报错）2.解决报错，那是缺少依赖导致的报错如下：3.安装依赖yum install -y gcc pcre-devel openssl openssl-devel4.安装完依赖后，再次执行configure。...

2019-06-24 18:03:31 115

原创 SparkStreaming的Receiver方式和直连方式的区别

Receiver接收固定时间间隔的数据（放在内存中），使用Kafka高级的API，自动维护偏移量，达到固定的时间才处理，效率低且容易丢失数据；Direct直连方式，相当于直接连接到Kafka分区上，使用Kafka底层的API，需要自己维护偏移量，效率高。...

2019-06-15 00:38:02 572

原创 kafka安装及基本操作

kafka集群安装 1.下载Kafka安装包 2.上传安装包 3.解压 4.修改配置文件 config/server.properties broker.id=0 host.name=主机名 log.dirs=/data/kafka zookeeper.connect=master:2181,slave...

2019-06-13 13:55:16 174

原创 Django项目环境搭建

1.创建虚拟环境virtualenv -p python3 dj(环境名字)2.进入虚拟环境source activate退出当前虚拟环境 deactivate3.创建django项目django-admin startproject test（项目名字）4.创建数据库5.到项目下的setting文件配置好mysql数据库DATABASES = { '...

2019-06-03 17:50:51 187

原创 scala--spark---(wordcount)

array是一个数组写法1：array.flatMap(_.split(" ")).groupBy(x => x).mapValues(_.length).toList.sortBy(x => - x._2)写法2：array.map(_.split(" ")).flatten.groupBy(x => x).map(mkv => (mkv._1,mkv._...

2019-05-28 15:24:49 139

原创 Hive案例--级联报表查询

有如下数据： A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 C,2015-01,10 C,2015-01,20 A,2015-02,4 A,2015-02,6 C,2015-02,30 C,2015-...

2019-04-24 18:13:17 215

原创 Hive数据类型---复合类型--struct结构类型

假设有如下数据：1,zhang,18:male:深圳则建表语句应该如下：create table t_user(id int,name string,info struct<age:int,sex:string:addr:string>)row format delimited fields terminated by ','collection items term...

2019-04-23 17:55:03 1370

原创 Hive数据类型---复合类型--map类型

假设有如下数据：1,zhang,father:zhanglaoge#monther:xiaolaomei#brother:superman,22则建表语句应该如下：create table t_person(id int,name string,family_members map<string,string>,age int)row format delimited f...

2019-04-23 16:48:14 1821

原创 Hive数据类型---复合类型--array数组类型

假设文件中的一行数据为：反贪风暴4,刘青云:张家辉:张老哥,2019-04-03此时建表语句应该为：create table t_movie（movie_name string,actors array<string>,show date）row format delimited fields terminate by ','collection items ter...

2019-04-23 13:20:13 4437

原创 hadoop2.0的改进

1、通过YARN实现资源的调度与管理，从而使Hadoop 2.0可以运行更多种类的计算框架，如Spark等。2、实现了NameNode的HA方案，即同时有2个NameNode（一个Active另一个Standby），如果ActiveNameNode挂掉的话，另一个NameNode会转入Active状态提供服务，保证了整个集群的高可用。3、实现了HDFS federation，由于元数据放在...

2019-02-13 13:31:55 1330

原创搭建hbase集群

HBASE是一个分布式系统其中有一个管理角色：HMaster，一般有两台，一台active，一台backup其他的数据节点角色：HRegionServerHBASE依赖hdfs和zookeeper，所以要保证这两个启动了假设有3台虚拟机把hbase的压缩包拖进第一台进行解压修改配置文件，进入hbase的conf目录下1）修改文件hbase-env.sh这里有两个...

2019-02-03 19:25:13 240

原创将hive启动成一个服务，然后用其他机器的客户端去连接这个hive服务

1.启动hive服务(启动后的默认端口是10000)直接启动hive安装目录下的bin/hiveserver2（前台启动方式）ornohup bin/hiveserver 1>/dev/null 2>&1 &（后台运行）2.客户端连接到hive服务（即为启动hive）hive安装目录下输入：bin/beeline -u jdbc:hive2://主机...

2019-01-12 19:11:40 760

原创 Hive显示当前库和显示字段名

方式一（只对当前会话有效，关闭后再启动则无效）：1.让提示符显示当前库：启动完hive，直接输入set hive.cli.print.current.db=true;2.显示查询结果时显示字段名：启动完hive，直接输入set hive.cli.print.header=true;方式二：在linux的当前用户目录中，编辑一个.hiverc文件，将参数写入其中：.hiv...

2019-01-12 18:49:01 940

原创 springmvc与struts2不同

springmvc的入口是一个servlet即前端控制器，而struts2入口是一个filter过滤器。 springmvc是基于方法开发(一个url对应一个方法)，请求参数传递到方法的形参，可以设计为单例或多例(建议单例)，struts2是基于类开发，传递参数是通过类的属性，只能设计为多例。 truts采用值栈存储请求和响应的数据，通过OGNL存取数据， springmvc通过参数解析器是将...

2018-10-18 10:39:53 116

原创 mybatis与hibernate不同

mybatis与hibernate不同Mybatis和hibernate不同，它不完全是一个ORM框架，因为MyBatis需要程序员自己编写Sql语句。mybatis可以通过XML或注解方式灵活配置要运行的sql语句，并将java对象和sql语句映射生成最终执行的sql，最后将sql执行的结果再映射生成java对象。 Mybatis学习门槛低，简单易学，程序员直接编写原生态sql，可严...

2018-10-17 11:29:10 120

原创 jdbc存在的问题总结

1.数据库连接创建，释放频繁造车系统资源浪费，从而影响系统性能。如果使用数据库连接池就可以解决此问题2.sql语句代码中存在硬编码问题，造成代码不易维护，实际应用中sql变化的可能较大，sql变动需要更改java代码3.使用preparedStatement向占有位符号传参数存在硬编码，因为sql语句的where条件不一定，可能多也可能少，修改sql还要修改代码，系统不易维护。4.对结...

2018-10-16 23:27:29 594

转载 InnoDB,MyISAM,MEMORY总结及区别

一.InnoDB存储引擎 InnoDB给MySQL的表提供了事务处理、回滚、崩溃修复能力和多版本并发控制的事务安全。在MySQL从3.23.34a开始包含InnnoDB。它是MySQL上第一个提供外键约束的表引擎。而且InnoDB对事务处理的能力，也是其他存储引擎不能比拟的。靠后版本的MySQL的默认存储引擎就是InnoDB。 InnoDB存储引擎总支持AUTO_INCREMENT...

2018-10-16 22:41:43 898

原创 Python字典

Python字典本节内容如下：字典特点创建方法访问字典添加item常用方法遍历方法字典推导式字典特点key:value的键值对key不能重复,value可以重复创建方法大括号字面量dict()函数d = {'pid':'1','name':'tom','age':'20','pid':'2'}d2

2017-10-17 13:33:06 301

原创 Python列表的方法

Python列表的方法本节内容如下：appendextendinsertremovepopclearcountsortreverseappendlist.append(x) 将项目添加到列表的末尾，例如：l1 = [1,2,3]l1.append(100)print(l1) # [1, 2, 3, 100]ex

2017-10-17 12:58:43 290

原创 Python列表简介

Python列表简介本节内容如下：列表的语法列表元素的类型列表可以被索引和切片列表串联操作（使用+）列表是可变的可以改变列表大小列表长度 len列表可以嵌套列表的语法列表的语法，写在方括号中使用逗号分隔的数据集合，例如：l1 = [1,2,3,4,5]print(l1) # [1,2,3,4,5]列表元素的类型

2017-10-17 12:57:37 314

原创 Python 开发工具Pycharm

Python 开发工具Pycharm本节内容如下：Pycharm简介下载安装Pycharm使用Pycharm开发PythonPycharm简介Pycharm是一个著名的IDE公司JetBrains的产品，该公司以开发IDE著称，有名的IDE有：Java开发工具IntelliJ IDEA，iOS 开发工具AppCode、PHP开发工具PhpStorm、

2017-10-17 12:54:55 578

原创爬取一个本地网页

Python爬取第一个本地网页本节内容如下：如何使用pyhton的第三库BeautifulSoup来解析一个网页第一步使用BeautifulSoup去解析网页soup = BeautifulSoup（html，‘lxml’）第二步描述要爬取的东西在哪变量名= soup.select('????')第三步从标签中获取你需要的信息

2017-10-16 15:22:33 1088

原创 Python变量和数据类型

Python变量和数据类型本节内容如下：什么是变量Python中的数据类型变量的定义与赋值什么是变量变量是程序用来保存数据的内存单元，可以通过变量名称来操作这些数据和内存分配情况。既然，变量要占用内存空间，那么，就要考虑如何分配内存的问题，何时分配、分配多大、何时回收。不过这些在Python中都非常简单，Python通过自动内存管理以及实现了这些功能

2017-10-16 14:57:09 532

原创第一个Python程序

第一个Python程序本节内容如下：使用命令行交互环境使用Atom编写Python程序使用命令行交互环境Python程序的一个很大的特点就是简洁，像编写其他程序，输出一个'Hello World'，需要写好几行代码，什么导入库，调用输出函数等等。然而，python的'Hello World'在命令行输出可以非常简单，输入一个'Hello World' 回

2017-10-16 14:42:39 234

原创 Python的应用领域

Python的应用领域本节内容如下：Python在系统编程中的应用Python在网络爬虫方面的应用Python在人工智能、科学计算中的应用Python在WEB开发中的应用Python在系统运维中的应用Python在大数据、云计算方面的应用Python在金融方面的应用Python在图形界面方面的应用Python在企业和网站方面的案例应用Py

2017-10-16 14:14:20 24518

原创 Python的优点和缺点

Python的优点和缺点本节内容如下：Python的优点Python的缺点使用Python的知名网站Python的优点1. 简单 Python的语法非常优雅，甚至没有像其他语言的大括号，分号等特殊符号，代表了一种极简主义的设计思想。阅读Python程序像是在读英语。2. 易学 Python入手非常快，学习曲线非常低，可以直接通过命令行交互环境来学

2017-10-16 14:07:16 26582

原创 python历史，人生苦短，我用pyhton

Python的发展历史本节内容如下：Python 起源Python语言的诞生人生苦短，我用python时势造英雄启示录Python 版本Python的起源Python的作者，Guido van Rossum，确实是荷兰人。1982年，Guido从阿姆斯特丹大学获得了数学和计算机硕士学位。然而，尽管他算得上是一位数学家，但他更加享受计算机带

2017-10-16 13:43:31 526

空空如也

空空如也