自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cheengvho的博客

01010101010100010101000101110100010

  • 博客(35)
  • 收藏
  • 关注

原创 fastjson使用说明

GitHub文档地址:https://github.com/alibaba/fastjson/wiki/Quick-Start-CNMaven依赖:http://mvnrepository.com/artifact/com.alibaba/fastjson使用文档目录:https://github.com/alibaba/fastjson/wiki/FastJson-%E6%96%87%E...

2018-09-17 13:35:02 616

原创 Spark-Streaming中使用MySQL的简单方法(Scala)

 向MySQL数据库中插入内容:(方法传入参数为一个元组RDD)def insertResult(record: Iterator[(String, String, String, String, String, String, String, String, String, String, Int, Int)]): Unit = { var conn: Connection = n...

2018-09-17 11:09:12 1929

转载 Flume的Sink配置为HDFS的相关参数说明

Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channel typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使...

2018-08-27 14:22:14 463

原创 Spark分区相关

在Linux启动spark-shell时,可以使用以下命令(两个线程):$ spark-shell --master local[2]使用sc.textFile(“path”)导入文件,然后可以使用以下命令查看分区数:scala> rdd.toDebugString()此时我从HDFS中导入了一个文件:然后查看该 RDD --- accounts的分区数:...

2018-08-24 08:58:55 167

原创 一个Spark maven项目打包并使用spark-submit运行

项目目录名 countjpgs pom.xml文件(位于项目目录下) countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs文件存放在HDFS的/loudacre目录下,是一个包含各种请求的web日志文件。pom.xml文件内容:<project xmlns="...

2018-08-23 17:20:05 8257

原创 SBT打包编译流程

scala文件写好为前提。在项目目录创建一个sbt文件$ vim simple.sbt编写simple.sbt文件,以下为该文件的内容:name := "Simple Project"version := "1.0"scalaVersion := "2.11.8"libraryDependencies += "org.apache.spark" %% "spark-cor...

2018-08-23 15:36:29 8456

原创 Hive(Impala)命令

新建表并从HDFS中导入数据:CREATE EXTERNAL TABLE webpage(page_id SMALLINT,name STRING,assoc_files STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'LOCATION '/loudacre/webpage' 在Impala或者Hive中使用之前生成的、...

2018-08-20 11:44:42 426

原创 Sqoop基础命令

获取帮助:$ sqoop help显示MySQL数据库loudacre数据库中的表:$ sqoop list-tables --connect \jdbc:mysql://localhost/loudacre --username training --password training查看sqoop import的功能$ sqoop import -help使用s...

2018-08-20 11:00:10 273

原创 提交Spark程序到YARN集群上面运行

在YARN群集上运行示例wordcount.py程序以计算知识数据集中单词的频率:$ spark-submit --master yarn-client wordcount.py /loudacre/kb/* 

2018-08-20 10:40:31 1368

原创 一些基础的HDFS命令

查询HDFS中的文件或文件夹:$ hdfs dfs -ls /XXfolder/Xfolder创建查看文件内容,以test.log文件为例:$ hdfs dfs -cat /test/test.log或(直接查看test下面所有文件的内容,*为通配符,根据自己需要自行编写过滤条件)$ hdfs dfs -cat /test/*同时查看几个选定的文件:$ hdfs df...

2018-08-20 10:37:29 296

原创 Kafka、Morphline、Hive的配合使用过滤并格式化日志数据

目录日志数据 创建并编写2个Flume配置文件:kafka_morphline_in.conf、kafka_morphline_out.conf 在Flume配置文件存放的同目录下创建并编写Morphline配置文件:morphline.conf 启动Zookeeper 启动Kafka 以kafka_morphline_out.conf配置文件agent2启动Flume 以kafk...

2018-08-20 10:19:08 745

原创 Flume将日志log文件从本地导入Kafka_channel,再存储到HDFS。

作为前一篇的修改版,取出来kafka-in.conf文件中的sink和kafka-out.conf文件中的source。前一篇链接:https://blog.csdn.net/m0_37890482/article/details/81130840以下配置文件都存储于 /etc/flume-ng/conf/ 下面kafka-in.conf#--------文件从本地路径到kafk...

2018-08-15 11:39:42 640

原创 Flume从脱机目录(Spooldir)获取文件到HDFS

Source为本地的 /flume/weblogs_spooldir,里面存储有大量的log文件。Channel为memory。Sink为HDFS,设置为文件大小滚动。 配置文件(configuration):agent.sources = source_spoolagent.sinks = sink_hdfsagent.channels = channel_memory...

2018-08-10 14:25:47 760

原创 使用Spark-Core导入txt文件并格式化输出

目标文件loudacre.txt (文件存于我的Linux训练机上面的 /home/training/Documents/loudacre.txt ) 文件的每行用一个 TAB 分割 代码://导入文件var trainingrecord = sc.textFile("file:///home/training/Documents/TrainingRecord.txt")//使用...

2018-08-06 09:35:58 1241

原创 Linux环境下编写Spark应用程序对HDFS中的包含jpg请求的日志文件进行计数 (Scala)

目录结构 /home/training/training_materials/dev1/exercises/spark-application/countjpgs/src/main/scala/stubs/CountJPGs.scala编辑这个文件,代码如下:package stubsimport org.apache.spark.SparkContextimport org.ap...

2018-07-23 14:00:35 270

原创 Spark RDD按行中邮编分类输出包含该邮编的用户姓名(Scala)

原始数据:输出样式: 现在开始进入正题:此次操作均在Linux虚拟机上面进行,用spark-shell启动,不包含前面的SparkContext的设置1、 从HDFS中导入文件var accounts_path = "/loudacre/accounts"var accounts = sc.textFile(accounts_path)2、将数据转化为key-val...

2018-07-23 11:00:13 222

原创 Spark对于RDD的相关操作(Scala)

如果在IDEA中创建Maven项目,需要导入相关依赖,现在先不提供pom文件,后面再上传。依赖导入完成之后,创建Scala-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)val conf=new SparkConf() .setMaster("local") .setAppName("testRdd")val sc=new SparkCo...

2018-07-20 18:02:45 1595

原创 Flume将日志log文件从本地导入kafka,再从kafka导入HDFS--使用kafka作为channel

作为前面两篇文章的整合,并使用kafka作为channel:1、Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。地址:https://blog.csdn.net/m0_37890482/article/details/81126522#0-qzone-1-10214-d020d2d2a4e8d1a374a433f596ad14402、Flume根据文件中每行...

2018-07-20 14:00:19 3395

原创 Flume根据文件中每行开始的日期进行文件夹分类导入HDFS

这里使用Flume只需要创建一个新的flume配置文件就可以了,我这里将配置文件取名为access_hdfs.properties,下面是配置文件内容:#-----------------access_hdfs.properties---------------##--------------------Edit by Cheengvho-----------------#agent1....

2018-07-20 13:32:39 2631

原创 自己写UDF函数导入hive对查询结果进行格式化显示(Java)

本篇UDF函数使用IntelliJ IDEA进行编写和打包,使用的是Java语言,数据使用上一篇博客“HDFS、Hive(Impala)读取本地文件到HDFS,再使用Hive(Impala)从HDFS读取文件进行建表”中已经放入hive中的数据进行查询展示。创建一个maven项目,导入依赖包<!-- 根据Linux系统上安装的的hadoop和hive版本,设置版本参数,不一定和我的...

2018-07-20 11:21:19 2009

原创 HDFS、Hive(Impala)读取本地文件到HDFS,再使用Hive(Impala)从HDFS读取文件进行建表

Hive 、Impala的用法相同,Hive直接输入hive就能启动,Impala使用Impala-shell命令进行启动下面用一道题进行讲解这个过程:给定一个企业对员工进行的安全培训数据表TrainingRecord(如下图),包括姓名(Name),培训日期(Date)和培训小时数(Hours),请写出相应的SQL查询回答下列问题:(1)查询每个员工的总培训小时数,平均培训时长和培训...

2018-07-20 10:28:31 5193

原创 Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。(以Kafka在两个文件中分别作为Source和Sink)

kafka-in.conf文件(在/etc/flume-ng/conf文件夹下)#文件从本地路径到kafka配置文件##-----------------------------## 指定Agent的组件名称agent1.sources = file_sourceagent1.sinks = kafka_sinkagent1.channels = mem_channel#---...

2018-07-20 09:57:47 1537 1

原创 Tomcat相关-Linux

实时查看tomcat运行日志tail -f /tomcat/logs/catalina.outCtrl=C中断查看或者是直接查看日志vi /tomcat/logs/catalina.out

2018-05-17 21:10:02 102

原创 对JavaWeb项目中文乱码的排除

问题分析:1、JSP页面中编码问题<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><meta http-equiv="Content-Type" content="text/html; charset=UTF-8">2、Servl

2018-05-17 21:04:51 114

转载 CentOS 7命令

Centos查看端口占用情况命令,比如查看80端口占用情况使用如下命令:lsof -i tcp:80列出所有端口netstat -ntlp查看端口状态 /etc/init.d/iptables status检查端口被哪个进程占用(此处用查询8080端口举例)netstat -lnp|grep 8080查看进程的详细信息(1777为上面查询出来的进城编号)ps 1777杀掉进程,重新启动apache...

2018-05-17 20:34:38 120

原创 MariaDB操作

更多参考:https://www.w3cschool.cn/mariadb/mariadb_drop_database.html安装mysql或mariadb后执行mysql_secure_installation配置安全选项。mysql_secure_installation登录mysql:mysql -uroot -p可以选择在-p后面不空格直接输入密码进入,也可以在下一行输入密码进入。常用s...

2018-04-12 18:21:27 261

原创 获取当前时间并格式化

import java.text.SimpleDateFormat;import java.util.Date;Date date = new Date(); // 设置要获取时间的格式 SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); // 将获取到的时间转为String类型 String ...

2018-04-09 16:06:58 293

转载 CSS下拉菜单

<style>.dropdown { position: relative; display: inline-block;}.dropdown-content { display: none; position: absolute; background-color: #f9f9f9; min-width: 160px; ...

2018-04-07 12:47:00 93

原创 JSTL和EL表达式的简单使用方法

要使用JSTL需要先安装JSTL标签库,安装方法和详情见http://www.runoob.com/jsp/jsp-jstl.html必须写(在JSP页面顶部),不然无法在该页面使用JSTL<%@ taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core"%>使用以下标签可以循环加载${products}中的内容,直接加载出商品列...

2018-03-26 14:27:09 315

原创 JSP+Servlet+JavaBean写用户登录注册

Conn.javapackage cn.cheen.utils;import java.sql.*;public class Conn { public static Connection getConnection(){ Connection conn=null; try{ Class.forName("com.mysql.jdbc.Driver"); String...

2018-03-26 13:38:10 3347

转载 Eclipse中配置GitHub

Eclipse+GitHub之前一直想研究github的使用,但一直没时间,今天抽空学习了一下,发现真的是非常好用!!!准备材料1.你要有最新版的Eclipse(不要问我为什么要最新版的,反正我用的是最新版本)2.一个github账号(账号注册我就不说了,度娘一下吧)3.给eclipse的git添加信息(Window-->Preferences-->Team-->Git)准备好材...

2018-03-23 16:50:20 9380 3

转载 Eclipse常见设置

当新建一个workspace时,习惯做下面的设置:1. 在eclipse中,默认的Text file encoding是GBK(操作系统是中文简体);如果操作系统是中文繁体,默认是MS950(Big5)  项目中大多使用的是UTF-8  通过在eclipse中对workspace修改编码格式,如下:  Windows -> Preferences -> General -> Wo...

2018-03-23 11:25:26 231

原创 maven项目将src/main/java和src/test/java两个source folder显示出来

右键点击项目名->buildPath->configure Build Path 弹出设置窗口选择选项卡Libraries->选中JRE System Library->点击edit->选中Alternate JRE->选择jdk点击finish,点击ok,即可出现src/main/java和src/test/java...

2018-03-23 11:23:27 4737

原创 JS判断注册页面输入并提示

//判断邮箱是否符合规范 var p = true; function checkemail() { var val = $("#emailAd").val(); if (!(val != null && val.trim() != '' && f)) { $("#emailTishi").html("<font color='red'&gt...

2018-02-28 10:33:21 1773

原创 JS写动态active类

//第一种方法,建议用这种。$(function(){ $('#leftNav li').click(function (e) { /* e.preventDefault(); */ $('#leftNav li').removeClass('active'); $(this).addClass('active'); }); });//第二种方法。实际上和上面一个完全一样...

2018-02-28 10:30:15 5683

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除