自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(146)
  • 资源 (1)
  • 收藏
  • 关注

原创 Wireshark基本介绍和学习TCP三次握手

记得大学的时候就学习过TCP的三次握手协议,那时候只是知道,虽然在书上看过很多TCP和UDP的资料,但是从来没有真正见过这些数据包, 老是感觉在云上飘一样,学得不踏实。有了wireshark就能截获这些网络数据包,可以清晰的看到数据包中的每一个字段。更能加深我们对网络协议的理解。对我而言, wireshark 是学习网络协议最好的工具。阅读目录wireshark介绍wi

2017-07-31 09:16:59 347

原创 IntelliJ IDEA 实用快捷键

Ctrl+/ 或 Ctrl+Shift+/ 注释(// 或者/*...*/ )Ctrl+D 复制行Ctrl+X 删除行快速修复 alt+enter (modify/cast)代码提示 alt+/ctr+G 定位某一行Shift+F6 重构-重命名Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+E 最近打开的文件Ctrl+J 自动代码组织导入 c

2017-07-31 09:16:37 360

原创 在CentOS 7上安装Kafka

简介Kafka 是一种高吞吐的分布式发布订阅消息系统,能够替代传统的消息队列用于解耦合数据处理,缓存未处理消息等,同时具有更高的吞吐率,支持分区、多副本、冗余,因此被广泛用于大规模消息数据处理应用。Kafka 支持Java 及多种其它语言客户端,可与Hadoop、Storm、Spark等其它大数据工具结合使用。本教程主要介绍Kafka 在Centos 7上的安装和使用,包括功能验证

2017-07-31 09:16:25 258

原创 R语言绘制热图Heatmap

热图,适合二维数据表的可视化,数值用颜色显示。细活在于调颜色,给人感性的、辨识度高的认识。nba nba row.names(nba) nba nba_matrix nba_heatmap Heatmap颜色的设置还是很关键的,直接体现你这幅图的效果了。R中颜色调色板很多:(1)简单的heat.colors(n

2017-07-31 09:16:05 2549

原创 scala 元组tuple的几个知识点

通过下标_n取数据不多说了,下面是几个比较有意思的知识点  知识点1、Tuple 和Function 和Producct一样最多只支持22个元素      比如 (0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21) 这样是没问题的      但是(0,1,2,3,4,5,6,7,8,9,10,11,12,13

2017-07-31 09:15:50 1831

原创 linux top命令参数详细介绍

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止. 比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按C

2017-07-31 09:15:38 283

原创 win7平台导入hadoop2.6源码进入myeclipse

1:在console中进入到 hadoop-2.6.0-src/hadoop-maven-plugins目录,执行:mvn intall2:进入到hadoop-2.6.0-src 目录,mvn eclipse:eclipse -DskipTests3:打开myeclipse, File-Import-Existing Projects into Workspace 选择hado

2017-07-31 09:15:26 426

原创 Hadoop参数汇总

主要配置文件:corehdfsyarnmapred重要性表示如下:重要一般不重要core-default.xmlhadoop.common.configuration.version配置文件的版本。hadoop.tmp.dir=/tmp/hadoop-${user.name}Hadoop的临时目录,其它目录会基于此路径。本地目

2017-07-31 09:15:14 331

原创 Install And Configure Openstack Mitaka RDO On CentOS 7 [For POC]

Hi Friends, As you might know, Mitaka is the most recent release of openstack and is being actively discussed in cloud computing community. It aims to bring many new features and stability to the we

2017-07-31 09:10:09 469

原创 Impala String Functions

String functions are classified as those primarily accepting or returning STRING, VARCHAR, or CHAR data types, for example to measure the length of a string or concatenate two strings together.

2017-07-30 21:31:28 489

原创 Linux 6上使用UDEV绑定共享存储

1.硬盘的查看方式;2.获得硬盘SCSI(Small Computer System Interface)ID;3.绑定共享存储;4.绑定共享存储的脚本;1.硬盘的查看方式:[root@cl6-11gr2-rac1 ~]# ls -ltr /dev/sd*brw-rw----. 1 root disk 8, 48 8月  16 13:34 /dev/sddbrw

2017-07-30 21:31:18 624

原创 一文读懂机器学习,大数据/自然语言处理/算法全有了

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢

2017-07-30 21:31:06 581

原创 推荐系统那点事 —— 什么是用户画像?

用户画像在大数据分析中是一种很有用的系统,它可以各种不同的系统中,起到很关键的作用。比如搜索引擎、推荐系统、内容系统等等,可以帮助应用实现千人千面、个性化、精准等的效果。下面将从几个方面来说一下,什么是用户画像,主要的内容来自《用户网络行为画像分析与内容推荐应用》这本书。应用场景数据来源特性建模群体画像画像的存储画像的查询画像的更新图片来自京东——想要购买可以点

2017-07-30 21:30:52 2630

原创 客户端如何访问greenplum

greenplum的客户端访问Greenplum服务器,要满足以下两点,否则会报错psql: FATAL:  no pg_hba.conf entry for host "192.168.1.172", user "gpadmin", database "testDB", SSL off一、用户要创建密码testDB=# alter role gpadmin

2017-07-30 21:30:36 5787

原创 Docker之常用命令

1. 查看docker信息(version、info)[plain] view plaincopy# 查看docker版本  $docker version    # 显示docker系统的信息  $docker info  2. 对image的操作(search、pull、images、rmi、history)[plain] view plaincopy# 检索image  $d

2017-07-30 21:30:17 250

原创 Nginx优化参数

一般来说nginx 配置文件中对优化比较有作用的为以下几项:worker_processes 8;nginx 进程数,建议按照cpu 数目来指定,一般为它的倍数。worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000;为每个进程分配cpu,上例中将8 个进

2017-07-30 21:30:06 278

原创 关于KVM一些概念

KVM(Kernel Virtual Machine内核虚拟机)是一个Linux内核模块,可以用modprobe去加载KVM模块。加载模块后,才能进一步通过其他工具创建虚拟机。但仅有KVM模块是不行的,因为用户无法直接控制内核模块去作事情,所以还要有一个用户空间的工具才行。这个用户空间的工具,开发者选择了已经成型的QEMU。QEMU也是一个开源的虚拟化软件,它是一套虚拟机管理系统,只要

2017-07-30 21:29:55 393

原创 制作rpm包

如何在linux或CentOS下制作RPM包   但我觉得单纯明白用.spec生成rpm是不够的。常见有两个原因值得我们去了解用如何用源码制作rpm:引用1、并不是所有的软件都提供.rpm方式的。 这是最常见的原因。负责任的开发者应提供rpm方式的二进制软件包,以便用户选择使用。但也很常见就是软件作者只是发布了源码,最后一部分的编译和安装需要用户自行解决。我不想深究对错问题

2017-07-30 21:29:46 458

原创 对称多处理(SMP)

SMP:一种通过复用处理器提高程序执行并行性的方式。  根据SMP,计算机系统可以分为以下四类:    单指令单数据流(SISD):一个单处理器执行一个单指令流,对保存在一个存储器中的数据进程进行操作。    单指令多数据流(SIMD):一个机器指令控制多个处理部件步伐一致的同时执行。每个处理部件都有一个相关的数据处理空间,因此,每条指令由不同的处理器在不同   的数据集合

2017-07-30 21:29:35 2194

原创 简单说一下Nginx配置说明

#用户 用户组  user       www www;  #工作进程,根据硬件调整,有人说几核cpu,就配几个,我觉得可以多一点  worker_processes  5;  #错误日志  error_log  logs/error.log;  #pid文件位置  pid        logs/nginx.pid;  worker_rlimit_nofile 8

2017-07-29 08:54:00 774

原创 storm两个案例(1单词计数本地执行 2累加集群执行 3集群关闭storm任务写法)

1 如何监听到文件夹内新增了文件2 如何监听到原文件内容数据做了变更3 为了有两个bolt 一个用于切分  一个用于统计单词个数 为何不写在一起呢??    每一个组件完成单独功能  执行速度非常快  并且提高每个组件的并行度已达到单位时间内处理数据更大4 参考flume ng 对处理过的文件做修改, 这里是将处理过的文件后缀更改达到目的  操作图如

2017-07-29 08:53:44 1214

原创 探索ORACLE之ASM概念(完整版)

ASM是Oracle 10g R2中为了简化Oracle数据库的管理而推出来的一项新功能,这是Oracle自己提供的卷管理器,主要用于替代操作系统所提供的LVM,它不仅支持单实例,同时对RAC的支持也是非常好一、     ASM(自动存储管理)的来由:ASM是Oracle 10g R2中为了简化Oracle数据库的管理而推出来的一项新功能,这是Oracle自己提供的卷管理器,主

2017-07-29 08:53:26 1056

原创 使用 Ruby on Rails 快速开发 Web 应用程序

Ruby on Rails 正在令整个 Web 开发领域受到震憾。让我们首先了解底层的技术:Ruby 是一门免费的、简单的、直观的、可扩展的、可移植的、解释的脚本语言,用于快速而简单的面向对象编程。类似于 Perl,它支持 处理文本文件和执行系统管理任务的很多特性。Rails 是用 Ruby 编写的一款完整的、开放源代码的 Web 框架,目的是使用更简单而且更少的代码编写实际使用的

2017-07-29 08:53:06 756

原创 大数据建模 需要了解的九大形式

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖

2017-07-29 08:52:49 11048

原创 Linux内核自旋锁

自旋锁自旋锁(spinlock)是用在多个CPU系统中的锁机制,当一个CPU正访问自旋锁保护的临界区时,临界区将被锁上,其他需要访问此临界区的CPU只能忙等待,直到前面的CPU已访问完临界区,将临界区开锁。自旋锁上锁后让等待线程进行忙等待而不是睡眠阻塞,而信号量是让等待线程睡眠阻塞。自旋锁的忙等待浪费了处理器的时间,但时间通常很短,在1毫秒以下。自旋锁用于多个CPU系统中,在单处理

2017-07-29 08:51:28 1549

原创 linux内核分析--为什么把中断分为上半部和下半步

写在前面:       在讲解上半部和下半部的的由来前说明一下两者的分工。   上半部:完成尽可能少的比较紧急的功能,它往往只是简单的读取寄存器中的中断状态并清除中断标志后就进行“登记中断”(也就是将底半部处理程序挂在到设备的底半部执行队列中的工作)    特点:响应速度快      下半部:中断处理的大部分工作都在底半部,它几乎做中断处理程序的所有事情。    特

2017-07-29 08:51:14 1328

原创 linux 内核信号量 用户态信号量 详解

Linux  内核中的信号量使用和用户态的信号量使用有所不同,1、内核信号量,由内核控制路径使用。2、用户态信号量分为两种,一种为POSIX,另一种为 SYSTEM V内核中信号量的构成以及使用:内核信号量的构成内核信号量类似于自旋锁,因为当锁关闭着时,它不允许内核控制路径继续进行。然而,当内核控制路径试图获取内核信号量锁保护的忙资源时,相应的进程就被挂起。只有在资源被释放时,

2017-07-29 08:51:00 1424

原创 Linux用户抢占和内核抢占详解(概念, 实现和触发时机)--Linux进程的管理与调度

日期内核版本架构作者GitHubCSDN2016-07-01Linux-4.6X86 & armgatiemeLinuxDeviceDriversLinux进程管理与调度前面我们了解了linux进程调度器的设计思路和注意框架周期调度器scheduler_tick通过l

2017-07-29 08:50:28 616

原创 hbase性能调试

本文主要介绍软件层面的性能调优。故,在此之前,请检查硬件状况。硬盘推荐SSD,一般SATA即可。网络千兆以上。可以安装Ganglia等工具,检查各节点的各硬件的运作状态:CPU,Memo,网络等等。 一、调整参数入门级的调优可以从调整参数开始。投入小,回报快。 1. Write Buffer Size快速配置Java代码

2017-07-28 10:13:44 415

原创 Hadoop YARN配置参数剖析(1)—RM与NM相关参数

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1.    ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默

2017-07-28 09:17:52 341

原创 解决mysql"Access denied for user'root'@'IP地址'"问题

在另一台服务器使用 MySQL-Front链接时:解决方法: 在MySQL服务器上使用root登录后,执行如下SQL语句: mysql 登录命令: >mysql -u root -p;然后执行如下命令:1. GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%' IDENTIFIED BY 'mypassword' W

2017-07-28 09:17:31 1108

原创 Linux进程管理 详细介绍

:Linux进程管理          A:进程的概念              -->进程和程序的区别:                  1:进程是静态的概念,本身作为一种软件资源长期保存;而进程是程序的执行过程,                     它是动态概念,有一定的生命期,是动态生成和消亡的。                  2:程序和进程无一一对应关系。一个

2017-07-28 09:17:21 282

原创 linux内核中断实现机制

一、什么是中断中断分两种:1)中断,又叫外部中断或异步中断,它的产生是由于外设向处理器发出中断请求。其中外部中断也有两种,这是由配置寄存器设定的:普通中断请求(IRQ)和快速中断请求(FIQ)。一般地,linux下很少使用快速中断请求。2)异常,又叫内部中断或同步中断,它的产生是由于处理器执行指令出错。在以下的内容我是要介绍由于外部设备产生的中断。

2017-07-28 09:17:03 309

原创 linux 自动执行 crontab学习笔记

在linux平台上如果需要实现任务调度功能可以编写cron脚本来实现。以某一频率执行任务linux缺省会启动crond进程,crond进程不需要用户启动、关闭。 crond进程负责读取调度任务并执行,用户只需要将相应的调度脚本写入cron的调度配置文件中。 cron的调度文件有以下几个:crontabcron.dcron.dailycron.hourlycron.m

2017-07-28 09:16:26 434

原创 Git命令使用宝典教程

----------git使用--------------1: git clone git@gitlab.niceprivate.com:back/coolly-nice.git2: cd coolly-nice/3: git branch userRecommend   (创建一个分支,和在git上一样建的名字)4: git checkout userRecommend  (

2017-07-28 09:15:31 335

原创 深入浅出linux之内核数据结构

内核使用的数据结构有双向链表,单向链表和hash链表。另外,基树和红黑树也是内核使用的数据结构。实际上,这也是程序代码中通常使用的数据结构,一些偏僻难的数据结构并不常见。 1. container  container是linux很重要的一个概念。有了container方法,才能实现对对象的封装。  分析一下container方法。=====

2017-07-28 09:15:20 1147 1

原创 MySql数据库细节使用规范详细解读胜过千行代码优化

适用场景:并发量大、数据量大的互联网业务 一、基础规范(1)必须使用InnoDB存储引擎解读:支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高 (2)必须使用UTF8字符集解读:万国码,无需转码,无乱码风险,节省空间 (3)数据表、数据字段必须加入中文注释解读:N年后谁tm知道这个r1,r2,r3字段是干嘛的 (4)禁止使

2017-07-28 09:15:01 477

原创 【学习】kudu、Impala、交互式查询

1、KuduHadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构造这样的系统,即保留HBase的数据模型,而将其底层存储部分改为纯列式存储(目前

2017-07-28 09:14:49 700

原创 【学习】R语言中的并行计算:foreach,iterators, doParallel包

我个人的理解,这些包进行并行计算,有点类似控制编译器的并行开关,将数据、循环变量直接的依赖性进行开关设置。不过R有几个包,可以提升效率和弥补R自身的不足,做大数据很有用。我就说说我每天要用的吧。如果不使用分布式,那就用ff、bigmemory等几个package。bigmemory:R的内存管理太烂了,因为很少给程序员管理的权限,这样一来操作系统懒加上R也懒导致常常读入

2017-07-28 09:14:26 1472

原创 Apple移动设备处理器指令集 armv6、armv7、armv7s及arm64

(via 雅香小筑) Arm处理器,因为其低功耗和小尺寸而闻名,几乎所有的手机处理器都基于arm,其在嵌入式系统中的应用非常广泛,它的性能在同等功耗产品中也很出色。 Armv6、armv7、armv7s、arm64都是arm处理器的指令集,所有指令集原则上都是向下兼容的,如iPhone4S的CPU默认指令集为armv7指令集,但它同时也兼容armv6指令集,只是使用

2017-07-27 09:09:16 571 1

Flink1.11中文文档

Flink1.11中文文档

2021-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除