Jin__nan-CSDN博客

原创 Linux后台运行程序

在我们平常的时候运行程序的时候会产生很多的信息，这些信息有时候有用，有时候没用，不过这些数据都会在该程序的log中保存，所以把这些信息放在前台就不是很好。我们可以将脚本放在后台运行，不要将这些信息显示出来。将shell放入后台运行比如：脚本名称：storm.sh后台运行： storm.sh &这样就会放入后台运行不占用前台的使用，他会返回给你一个进程号查看进程的时候...

2018-07-23 10:14:24 260

原创 crontab定时器

crontab定时器linux下的定时任务1、编辑使用crontab -e 一共6列，分别是：分、时、日、月、周、命令2、查看使用crontab -l3、删除任务crontab -r4、查看crontab执行日志 tail -f /var/log/cron 必须打开rsyslog服务cron文件中才会有执行日志（service rsyslog statu...

2018-07-23 10:00:27 949

原创 Zookeeper机制和应用场景

Zookeeper简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等等。Zookeeper就是用来做第三方的，起作用只有俩个。 1、管理（存储、读取）用户提交的数据。 2、并为数据提供监听功能。（监听服务器是有正常）Zookee...

2018-07-14 12:01:23 363

笔者当时自己装CM&amp;amp;amp;amp;amp;CDH看了不下10篇博客，重装集群不下3次，后来快照这个功能深深的刻在了我的心里。这篇博客笔者呕心沥血啊。。。不过还是会有同学会挂掉，所以希望大家做到那里一步记得快照。。。。发一下牢骚。。。 CM&amp;amp;amp;amp;amp;CDH安装需要的准备事项：1、Cloudera Manager安装包（rpm包） 2、CDH的安装包 3、集群就这俩个，有的博客还介绍到要用到m...

2018-07-14 09:13:43 3328 1

原创利用视图进行多表关联

疑问在大数据中我们关联的码表大于8个，然后数据存储量大于500W，那么在进行hive清洗的时候极有可能会被卡死。可是我们就是要在一张表上关联10多个表，比如一张表中的很多字段都要关联码表，因为其有对应的翻译字段。那我们改怎么办呢？只能将他分成俩次进行关联。难不成我们要重新创建一个中间表就是为了关联一下么？卧槽，这也太操蛋了吧。答案答案流程 1、面对这样的问题的时候s...

2018-07-10 21:46:15 10473

原创 sqoop安装

sqoop安装安装sqoop的前提是已经具备java和hadoop的环境 1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配置文件$ cd /usr/local/sqoop/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行：ex...

2018-06-25 19:26:58 797 1

原创 Flume实战

前言在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： Flume的一些简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，...

2018-06-24 17:23:04 1318 2

原创牛逼的Hive-SQL实战

查询全体学生的学号与姓名　　hive&amp;amp;gt; select Sno,Sname from student;查询选修了课程的学生姓名 hive&amp;amp;gt; select distinct Sname from student inner join sc on student.Sno=Sc.Sno;—-hive的group by 和集合函数查询学生的总人数...

2018-06-12 09:39:17 1020

原创神级Hive的SQL案列

Hive实战案例——级联求和需求：有如下访客访问次数统计表 t_access_times访客月份访问次数A 2015-01 5A 2015-01 15B 2015-01 5A 2015-01 8B 2015-01 25A 2015-01 5A...

2018-06-11 18:55:43 531

原创 Hive的外部表和分区表

构造一个外部表外部表的好处是删除external表，数据表的元数据不会被删除> create external table t_sz_ext(id int,name string)> row format delimited > fields terminated by '\t'> stored as textfield> location '/h...

2018-06-04 20:50:42 640

原创 Hive读取文件

hive读取文件教会hive怎么读文本数据这样直接读数据就是将文本文件上传到该数据表所在的hdfs的文件夹中hadoop fs -put studen.dat /user/hive/数据库名/表名hive> create table student(id int,name string)//创建表和属性> row formate delimited//教...

2018-06-04 20:47:57 5750

原创爬虫内涵段子贴吧内容

直接上代码#-*- coding:utf-8 -*-import urllib2import reclass Spider: ''' 这是一个内涵段子吧的一个爬虫类 ''' def __init__(self): self.enable = True self.page = 1 #当前要爬去的页数 ...

2018-05-31 23:01:35 780

原创爬虫爬取清纯妹子图

爬取清纯妹子爬取图片，保存D盘下的image。不多说废话，直接上码。我偷偷打码了 0.0#!/usr/bin/python# -*- coding: utf-8 -*-import urllib2import urllibimport randomimport socketfrom bs4 import BeautifulSoupfrom time import sl...

2018-05-31 22:54:01 3061

原创 Windows下用myeclipse运行MapReduce程序

Windows下用myeclipse运行MapReduce程序虚拟机中要有Hadoop环境如果没有搭建可以参考我的博客Hadoop搭建Windows和虚拟机的防火墙都要关闭hadoop 在启动的时候报下面的错误：2012-09-18 13:42:38,901 INFO org.apache.hadoop.ipc.Client: Retrying connect to...

2018-05-28 09:55:48 818

原创 namenode和secondary namenode之间的联系和区别

1、namenode是存储客户端想hdfs发送增删改查的要求的元数据的。 2、secondary namenode是存储namenode的元数据的，防止namenode宕机产生的数据丢失。 3、一条元数据打大小是150byte，namenode的存储空间大约是128G，secondary namenode的内存会稍微大一些。 4、因为这样的内存机制，所以hdfs不适合存储大量小数据，使用...

2018-05-25 20:53:26 4967

原创 CenotOS的静态ip地址配置

1、命令行界面中查看ip用 ip addr2、虽然centos默认安装了ssh但是也要重新安装ssh-server 在hadoop用户下安装 sudo yun install openssh-server3、命令行界面查看ssh就不是用service status sshd这样了 systemctl status sshd.ser...

2018-05-25 20:50:44 744

原创 HDFS上传的文件保存再本机的什么位置？

在hdfs中创建文件，文件会被存储在哪里？会就近存储在相应的子节点中的Datanode文件夹中（如果没有特殊说明的话），主节点中不会有因为主节点中没有Datanode。/usr/local/hadoop/tmp/dfs/data/current/BP-69599534-192.168.1.128-1524394754210/current/finalized/subdir0/subdir0...

2018-05-24 21:06:26 6576

原创 HDFS定时上传脚本

HDFS定时上传脚本1、脚本名为uploadFile2Hdfs.v2.sh 2、脚本运行的java，hadoop环境分别是jdk1.7.0_51、hadoop（指定到安装目录即可） 3、虚拟机中 /usr/local/hadoop/logs/hdfslog/log/、 /usr/local/hadoop/logs/hdfslog/toupload/ 这俩恶搞文件夹 ...

2018-05-24 21:03:18 930

原创数据库索引

根据数据库的功能，可以在数据库设计器中创建三种索引：唯一索引主键索引聚集索引。主键和唯一索引区别（1）主键是特殊的唯一索引，唯一索引不一定是主键（2）一个表可以有多个唯一索引，但只能有一个主键（可以是联合主键）（3）主键列不允许空值，而唯一索引列允许空值索引的本质MySQL官方对索引的定义为：索引（I...

2018-04-21 19:53:45 226

原创 sudo指令失效

图方便就直接在sudo vi /etc/sudoers中添加hadoop用户的root权限。添加：用户名 ALL=(ALL) ALL结果就导致了接下来用sudo的时候提示如下错误:sudo: /etc/sudoers 可被任何人写sudo: 没有找到有效的 sudoers 资源，退出sudo: 无法初始化策略插件sudoers的权限被改了，改回来就好了...

2018-04-21 19:52:45 3087

原创 Hadoop分布式集群搭建

Hadoop分布式集群搭建环境Windows下的VMware虚拟机，用cnetos搭建三台hadoop分布式集群下载包1、创建hadoop用户 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop 给用户添加密码 2、修改网络信息（静态ip）修改hosts文件，...

2018-04-21 19:51:34 226

原创 Linux系统文件配置

文件系统树根目录 / linux中所有文件目录的最高级目录bin 用于存放命令文件sbin 用于存放系统级命令boot 用于存放系统的引导文件和系统的内核文件dev 用于存放硬件设备文件etc 用于存放配置文件home 家目录，用于存放普通用户的个人文件，类似于windows中的我的文档root root用户的家目录lib 运行库文件lib64 系统运行...

2018-04-21 19:49:53 411

原创敏捷测试

敏捷测试敏捷联盟在成立之初总结了四条基本的核心价值： 1.人员交流重于过程与工具（Individuals and interactions over processes and tools） 2.软件产品重于长篇大论（Working software over comprehensive documentation） 3.客户协作重于合同谈判（Custom...

2018-04-21 19:46:12 474

原创 web中验证码的实现

web中验证码的实现

2017-09-25 17:54:40 454

原创 C语言的内存四区

C语言进阶发表于 2017-07-05 | 分类于 C语言变量本质变量的本质就是其名称所相对用的内存空间（内存地址）内的数据的别名而已1、程序通过变量来申请和命名内存空间 int a=0；2、通过变量名来访问内存空间（一段连续）内存空间的别名！（相当于一个简易的门牌号）3、变量对内存，可读可写（1）通过变量往内存中读写数据（2）不是向变量读写数据（3）是向变量所代表的内存空间中读写数据#inc

2017-08-01 21:23:04 478

原创 Linux的常见指令

Linux的常见指令发表于 2017-07-05 | 分类于 LinuxLINUX之前学校从外面请了一个Linux的培训师给我们上了几天课，也就是教了一些简单Linux命令.我就把这些东西整理了一下。培训教师:于天泽网上一些好的网站:linux公社Linux中国51ctoLinux最大的特点 1.开源 2.稳定性 3.安全性 4.高可用性文件系统树根目录 / linux中所有文件目录的最高级目

2017-08-01 21:16:04 265

原创 Mac装Ｗindows双系统

Mac装Ｗindows双系统发表于 2017-07-06 | 分类于 Mac当时我跑遍了全城的专卖店找到了最便宜的一家收了我200块！200块装了一个教育版的Win10还是没激活版的，真的黑。现在我也晋升了，写上我认为最简单的方式供大家参考。(图片有参考)首先我们需要一台Mac，当然这也是废话。但是我们仅仅就要一台Mac就足以解决了。不需要什么8G空U盘，就是这么简单。然后我们下载一下 Win

2017-08-01 21:14:57 1942

Jin__nan的博客