自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 在VMware中为RedHat7设置静态IP并联网

1.首先在Windows端使用win+R快捷键,打开运行,输入“cmd”,按回车。在DOS界面输入“ipconfig /all”,查看本机IP等信息 。2. 打开虚拟机设置将网络适配器选为“NAT模式”2. 打开VMware的“虚拟网络编辑器”选项3. 设置NAT模式的相关参数网关IP自动获取或者自行设置3.进入系统,在命令行输入下面的命令 (...

2019-08-22 11:25:54 328

原创 结课项目:IMDb网站Top250电影数据分析及可视化、对某一部电影的评论形成高频词字符云、监控评论、对该电影推荐用户(暂定)

一、网页分析1. Top250页面分析2.电影Pulp Fiction评论页面分析二、Java WebMagic爬取信息1. 爬取Top250电影的详细信息,以键值对形式保存为Json文件2. 爬取电影Pulp Fiction的用户评论信息,以键值对形式保存为Json文件三、数据清洗将保存在本地的Json文件上传到HDFS中:hadoop fs -mkdir -...

2019-04-25 11:54:32 1991

原创 Hadoop - HDFS(体系结构介绍、HDFS数据处理、Hadoop Shell基本操作、HDFS Java API)

* HDFS的工作原理是答辩重点(块、元数据、主/从节点SecondaryNameNode,FsImage、EditImage、存取策略/规则、数据出错与恢复、读写过程)集群和分布式概念:集群:集群就是逻辑上处理同一任务的机器集合,可以属于同一机房,也可分属不同的机房 分布式:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群集群就是逻辑上处理同一任...

2018-12-26 18:26:20 806

原创 Linux下安装MySQL、Eclipse编译器、Tomcat配置、JavaWeb插件安装

MySQL1. Ubuntu 16.04 安装安装前先更新软件包列表:sudo apt update在Ubuntu 16.04上安装MySQL:sudo apt-get install mysql-server mysql-client在安装过程中需要你输入MySQL 管理员用户(root)密码:安装完成之后可以使用如下命令来检查是否安装成功:sudo...

2018-12-10 23:13:00 368

原创 Spark框架学习:Spark Shell操作、Spark Java API&Spark Scala API操作

Spark Shell操作Spark shell是一个特别适合快速开发Spark程序的工具。即使你对Scala不熟悉,仍然可以使用这个工具快速应用Scala操作Spark。Spark shell使得用户可以和Spark集群交互,提交查询,这便于调试,也便于初学者使用Spark。Spark shell是非常方便的,因为它很大程度上基于Scala REPL(Scala交互式shell,即S...

2018-12-04 09:24:13 2322

原创 Spark框架学习:Spark Local模式安装、Standalone伪分布模式安装、Scala开发插件安装

Spark Local模式安装目前Apache Spark主要支持三种分布式部署方式:分别是standalone、Spark on mesos和spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算...

2018-12-04 09:11:19 674

原创 Python - 环境安装、解释器介绍、PyCharm安装、numpy/pandas/Matplotlib模块安装

Python安装一、Ptyhon介绍因为Python是跨平台的,它可以运行在Windows、Mac和各种Linux/Unix系统上。在Windows上写Python程序,放到Linux上也是能够运行的。要开始学习Python编程,首先就得把Python安装到你的电脑里。安装后,你会得到Python解释器(就是负责运行Python程序的),一个命令行交互环境,还有一个简单的集成开发环...

2018-11-16 16:37:33 3647

原创 数据仓库Hive安装部署及基本操作

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive构建在基于静态批处理的Hadoop之上,由于Hadoop通常都有较高的延...

2018-11-12 15:23:15 1866

原创 Java - 集合

Java集合框架位于java.util包中,提供了一套性能优良、使用方便的接口和类。Java集合框架共有三大类接口: List、Set、Map:虚线框:接口,实线框:实现类 List接口:概念:一组对象的集合,容器,用来存储对象的,他解决了数组一旦声明长度就固定的这种局限。List 接口存储一组不唯一,有序(插入顺序)的对象。分类:集合分为两大类,用接口来体现两大接口Coll...

2018-11-05 14:22:07 325

原创 【自用笔记】Ubuntu 不完全使用指南

1. 安装图形化桌面,总有些不需要的软件,卸载只需2步:dpkg --get-selections | grep boxsudo apt-get purge2. Ubuntu18 设置系统字体大小/样式需要使用优化工具打开终端,安装gnome-tweaks桌面配置工具sudo apt install gnome-tweaksalt+f2在运行窗口输入gnome-...

2018-10-30 17:03:59 489

原创 JavaWeb可视化:Web+Echarts案例:豆瓣日剧豆列电影信息可视化(柱状图、饼状图、折线图)

柱状图案例柱状图用来比较多项目的数值情况,从构成上来说,柱状图以坐标轴上的长方形元素作为变量,以此来达到展现并比较数据情况的目的。柱状图形式多种多样,以适应不同场合数据展示,常用的有如下形式:可以参考http://echarts.baidu.com/echarts2/doc/example.html 和 http://echarts.baidu.com/examples/#chart-...

2018-10-20 17:44:37 3642 1

原创 Java数据采集:Xpath解析 + WebMagic案例:采集豆瓣豆列电影信息存储MySql数据库

Maven的安装与设置环境变量1. 下载Maven:http://maven.apache.org/download.cgi2. 设置环境变量 新建变量MAVEN_HOME,值为Maven的目录X:\XXX\apache-maven-XXX 将%MAVEN_HOME%\bin添加到Path变量下3. 检测:运行CMD,输入mvn -v后可以看到Maven的版本信息等则表示安装成功...

2018-10-18 22:31:17 1569

原创 前端网页(一):HTML + CSS

HTML(HyperText Markup Language)超文本标记语言, “超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。 它通过标记符号(标签)来标记要显示的网页中的各个部分,这些语义化的标签可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等),浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误...

2018-10-11 18:38:17 519

原创 Java——JDBC连接数据库

JDBC概念介绍:对于一些数据预先写好的程序,应用程序和数据库服务器之间通过JDBC实现数据交互,使数据可以动态变化。JDBC(Java DataBase Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。具体构成如图所示:JDBC API:提供了应用程序对JDBC的管理连接...

2018-10-10 17:25:14 379

原创 MySql:SQL常用操作、函数、事物和索引

MySQL是一个关系型数据库管理系统,在开始学习MySQL数据库前,让我们先了解下RDBMS的一些术语:数据库: 数据库是一些关联表的集合。 数据表: 表是数据的矩阵,在一个数据库中的表看起来像一个简单的电子表格。 列:一列(数据元素) 包含了相同的数据,例如邮政编码的数据。 行:一行(=元组,或记录)是一组相关的数据,例如一条用户订阅的数据。数据库(Database)是按照数据结构来...

2018-10-09 13:04:33 199

原创 Mapreduce:概述 + 实例:WordCount + yarn

MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是”任务的分解与结果的汇总“。1. MapReduce的工作原理在分布式计算中,MapReduce框架负责处理了并行编程里分布式存储、工作调度,负载均衡、容错处理以及网络通信等复杂问题,现在我们把处理过...

2018-10-08 10:18:17 712

原创 Hadoop(伪分布、集群模式)安装,Hadoop开发插件安装,以及出现的问题、异常解决方法

Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hadoop还包括了Hiv...

2018-09-30 14:07:16 1284

原创 Hadoop初识、架构探讨

Hadoop简介:Hadoop官网:http://hadoop.apache.org/Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop 底层用Java语言、跨平台性,可以部署在廉价的计算机集群中。Hadoop在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商...

2018-09-29 10:49:38 2215 2

原创 Java - 文件和IO流

文件:File类Java就提供了一个File类,以抽象的方式代表文件名和目录路径名。该类主要用于文件和目录的创建、文件的查找和文件的删除等。是我们后面学习IO流的基础和前提File对象代表磁盘中实际存在的文件和目录,我们可以通过递归算法知道磁盘中某一个目录下嵌套了多少文件。递归算法(英语:recursion algorithm):程序调用自身的编程技巧称为递归( recursion)。...

2018-09-28 11:35:44 346

原创 Java - 常用类

API:java Application Programming Interface:java应用程序编程接口。Java语言面向对象的,基本数据类型却不是面向对象的,存在很多不便,所以为每个基本数据类型设计一个对应的类:包装类包装类包含每种基本数据类型的相关属性,和操作方法。常用类:顾名思义,就是在Java中常用的类,是jdk给我们提供的,封装了很多的方法,供我们方便使用,常用类主要有...

2018-09-26 09:43:04 490

原创 Java - 抽象类和接口

1、抽象类:抽象类用关键字abstract修饰,简单的说,抽象类是一个不能实例化的类,它可以具有抽象方法或者普通方法抽象类优势:抽象类可以将已经实现的方法提供给其子类使用,使代码可以被复用 抽象类中的抽象方法在子类中重写,保证了子类还具有自身的独特性 抽象类指向其子类的对象,可以实现多态普通方法和抽象方法的区别:普通方法必须要有方法体,抽象方法不能有方法体(大括号也没有) 抽象...

2018-09-25 12:57:06 1039

原创 Java - 异常处理

异常:在程序运行过程中可能发生的不正常的事件,会中断正在运行的程序。异常是一种特殊的对象,类型为java.lang.Exception或其子类。Java使用异常处理机制为程序提供了错误处理的能力,通过5个关键字来实现的:try、catch、 finally、throw、throws捕获异常:try-catch-finally try:执行可能产生异常的代码 catch:捕获异常 ...

2018-09-25 11:40:03 1009

原创 Java - 面向对象三大特性:封装、继承、多态

包:Java中的包机制也是封装的一种形式语法:package  包名;注意:包的声明必须是Java源文件中的第一条非注释性语句 一个Java源文件只能有一个包声明语句 包命名需遵循命名规范导入包:语法:import  包名.类名;面向对象的三大特征:封装、继承和多态。对象:用来描述客观事物的一个实体 属性:对象具有的各种特征 方法:对象执行的操作类:具有相同...

2018-09-20 13:57:15 1144

原创 Java-入门基础综合练习:图书管理系统

综合练习:图书管理系统需求:图书管理系统,要把图书馆的图书管理、读者管理、图书借阅管理等日常管理工作实行计算机统一管理,以提高工作效率和管理水平。目前我们还没学习数据库,所以将数据存储在数组中;配合流程控制来开发图书管理系统。流程控制在一个项目开发中至关重要,它决定着项目的执行流程,通过它可完成逻辑控制。流程控制分为三类:顺序执行、条件控制、循环控制。条件控制:if-else;sw...

2018-09-19 14:18:51 2321

原创 Java - 流程控制-循环结构 + 数组

1、流程控制流程控制指的是对java代码执行顺序的控制,在控制中加上我们的逻辑处理,从而完成相应的目标。在java中,流程控制可以分为三类:顺序、分支、循环。顺序执行,表示逐行执行相应的语句,从前往后执行,不涉及任何的关键字 分支控制,是条件控制,需要按照判断条件动态的去执行符合条件的语句,if   switch 循环控制,则需要按照循环判断条件动态的去执行循环语句,for  whil...

2018-09-19 11:03:16 383

转载 大数据入门:各种大数据技术介绍

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什...

2018-09-17 19:13:28 219

原创 Java - 数据类型 + 运算符

1、变量和常量1.1、概念常量:值不会发生变化的量,不会被程序修改的量变量:值发生变化的量,可以用来存储数据。1.2、变量命名规则:字母、数字、下划线、$组成,不能以数字开头 不能与关键字相、保留字(goto、null) 标识符区分大小写,长度不得超过255个字符 做到见名之意2、数据类型变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。内...

2018-09-17 10:30:23 651

原创 Java - 初识Java + 环境搭建

一、初识JavaJava:由Sun Microsystems公司于1995年5月推出的Java程序设计语言和java平台的总称,Java语言可以撰写跨平台应用软件的面向对象的程序设计语言,由当时任职太阳微系统的詹姆斯.高斯林(James Gosling)等人于1990年代初开发,它最初被命名为Oak语言。Java伴随着互联网的迅猛发展而发展,逐渐成为重要的网络编程语言。是一种面向对象的编程语言...

2018-09-17 10:28:16 298

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除