自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 win10 设置定时调度任务 运行python脚本

一、打开【我的电脑-属性-控制面板-系统与安全-管理工具-任务计划程序】二、打开【任务计划程序】,点击【创建任务】三、在【常规】页签填写内容,名称和描述 是为了描述该定时任务。以便于清晰该任务的作用;至于安全选项,可以根据自身任务所处的环境设置。四、选择【触发器】页签,点击【新建】-【新建触发器页签】。这里是设置该定时任务执行的方式,如一次性任务、定时每日执行、定时每周执行等等五、选择【操作】页签,点击【新建】进入【新建操作】页面。这一步是比较关键的。5.1 操.

2022-02-14 16:15:44 1400 1

原创 redis的过期策略以及内存淘汰机制

分析:这个问题其实相当重要,到底redis有没用到家,这个问题就可以看出来。比如你redis只能存5G数据,可是你写了10G,那会删5G的数据。怎么删的,这个问题思考过么?还有,你的数据已经设置了过期时间,但是时间到了,内存占用率还是比较高,有思考过原因么?回答:redis采用的是定期删除+惰性删除策略。为什么不用定时删除策略?定时删除,用一个定时器来负责监视key,过期则自动删除。虽然内...

2019-08-29 08:57:12 118

原创 消费kafka数据:处理消息模块改成为多线程的实现方式

package application;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.time.Dur...

2019-08-24 18:54:26 321 1

原创 Hbase 操作时出现:Server is not running yet

问题:解决办法:1)启动Hadoop2)输入指令:hadoop dfsadmin -safemode leave出现该问题的原因是:hadoop处在安全模式下。所以hbase的操作会出现异常。造成此问题的故障是:在没有退出旧版Hbase的情况下,擅自将其删除,然后按照了新版本的Hbase,HADOOP会自动进入安全模式。...

2019-08-22 23:03:03 4960

原创 并发架构

画了一张目前公司刚设计的基础图,热点并发情况下的架构图

2019-07-09 11:44:03 252

原创 Linux 虚拟机增加磁盘

1.第一步,在此处增加磁盘容量2.第二步,执行df,没有啥变化3.fdisk -l 发现容量是增加了4.

2019-06-14 10:51:00 141

原创 日常问题:今日数据导入到MySQL,出现table is full问题,待解决

今天,将hadoop一份2G数据,通过sqoop和navicate工具分别导入到mysql数据库,出现了table is full 的问题。尚未解决!

2019-06-12 10:02:29 262

原创 sqoop:使用sqoop工具,把数据从MySQL导入到hive。

sqoop import \--connect jdbc:mysql://had01:3306/DB_CRY_TEST \--username root \--password root \--table POI_INFO \--fields-terminated-by "," \--lines-terminated-by "\n" \--hive-import \--hive-o...

2019-05-29 16:55:54 178

原创 kafka_2.12测试操作

--1.创建topic主题kafka-topics.sh --create --zookeeper had01:2181,had02:2181,had03:2181 --replication-factor 3 --partitions 3 --topic test_shell--2.在had01执行生产者的命令kafka-console-producer.sh --broker-list ...

2019-05-22 14:23:22 279

原创 通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中。总的来说,使用 Bulk Load 方式由于利用了...

2018-11-27 11:13:22 195

原创 正则例子

2013:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_SO310:0,SB_TOTALWAGES_SO410:0,SB_TOTALWAGES_SO510:0,SB_TOTALWAGESDIS:空},2014:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_...

2018-09-13 14:31:43 211

原创 Navicate导入数据到Oracle

操作手册说明:使用Navicate工具进行数据导入。步骤:1.选定需要导入数据的表;2.右键数据表,选择“导入向导”3.选择原数据的文本格式,下一步:4.选择数据源5.选择分隔符,再选择栏位分隔符,根据原数据中的分割符号,比如逗号,分号等。6.此页面可不做操作,直接下一步;7.选择好目标表相当于再次确认将要导入数据的目标表。8.选择源...

2018-09-12 17:00:37 2031

原创 OOM:Java heap space

今日写代码。出现一个OOM问题:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space    at java.lang.Class.getDeclaredFields0(Native Method)    at java.lang.Class.privateGetDeclaredFields(Unknow...

2018-09-07 16:19:09 574

原创 用Java实现去除文本文件中的空行

package com.chen.work.day0905;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.io.IOExc...

2018-09-05 22:38:10 4444 1

原创 PL\SQLPLSQL Developer 12 (64 bit)安装配置

第一步,Oracle实例安装目录:D:\ProgramData\instantclient_11_2第二步,plsql开发工具安装在:D:\ProgramData\plsqldevtnsnames.ora文件放入到如下目录中:D:\ProgramData\plsqldev\network\ADMIN---------------第三步创建环境变量:变量名:NLS_LANG变量值...

2018-09-03 20:21:00 6057

原创 HBase优化实战

背景Datastream一直以来在使用HBase分流日志,每天的数据量很大,日均大概在80亿条,10TB的数据。对于像Datastream这种数据量巨大、对写入要求非常高,并且没有复杂查询需求的日志系统来说,选用HBase作为其数据存储平台,无疑是一个非常不错的选择。HBase是一个相对较复杂的分布式系统,并发写入的性能非常高。然而,分布式系统从结构上来讲,也相对较复杂,模块繁多,各个模块...

2018-08-10 17:12:53 247

原创 用IntelliJ IDEA :park和hive整合编写代码实现

代码:package sparksql_hiveimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContextobject test { def main(args: Array[String]): Unit = { System.setProp...

2018-07-30 21:43:25 837

原创 NBA之spark-hive解析答案

这里的两份数据是NBA 2017-2018赛季 的比赛结果nba_game.csv和比赛详情nba_game_detail.csv关于NBA,需要了解一个背景知识:    NBA总共有30支球队    NBA的每支球队在每个赛季的常规赛,都会有82场比赛    NBA的每支球队在赛季初都会有场次不等的季前赛,但是按照时间的先后顺序排序之后,最后的82场比赛是常规赛,其余的都是季前赛  ...

2018-07-30 21:42:59 1984 1

原创 大数据编程犯的错误系列

1.两个路径的区别1) /home/cry/zookeeper.out     这个路径,在spark编程中,系统会认为是在从进群取这个文件。相当于这个路径:hdfs://bd1803/home/cry/zookeeper.out 2) file:///home/cry/zookeeper.out    这个路径是从本地中取出文件。本地可以理解为:windows 和linux,看编写代码的...

2018-07-30 20:29:56 796

原创 HDFS文件误删除之恢复

启动HDFS的垃圾回收站为了防止误删,一般默认是关闭的,需要我们自己配置文件打开。修改core-site.xml    <property>               <name>fs.trash.interval</name>               <value>1440</value>              ...

2018-07-21 16:40:47 5113 1

原创 spark运行出现的错误案例

1.错误描述:org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running ...

2018-07-21 16:06:31 2646 1

原创 MapReduce 超详细执行流程解读

1、一个大文件需要处理,它在在 HDFS 上是以 block 块形式存放,每个 block 默认为 128M存 3 份,运行时每个 map 任务会处理一个 split,如果 block 大和 split 相同(默认情况下确实相同) , 有多少个 block 就有多少个 map 任务, 所以对整个文件处理时会有很多 map 任务进行并行计算2、 每个 map 任务处理完输入的 split 后...

2018-07-20 22:09:24 504

转载 MapReduce剖析笔记之一:从WordCount理解MapReduce的几个阶段(转载)

WordCount是一个入门的MapReduce程序:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...

2018-07-20 19:58:40 166

转载 豆瓣250爬虫代码

#!/usr/bin/python3# -*- coding:utf-8 -*-# author: https://blog.csdn.net/zhongqi2513# ====================================================# 内容描述: 爬取豆瓣Top250电影# =========================================...

2018-07-09 08:53:10 1294

转载 GROUP BY语句与HAVING语句的使用

一、GROUP BYGROUP BY语句用来与聚合函数(aggregate functions such as COUNT, SUM, AVG, MIN, or MAX.)联合使用来得到一个或多个列的结果集。语法如下:SELECT column1, column2, ... column_n, aggregate_function (expression)            FROM tabl...

2018-07-09 08:51:13 168

原创 python在Linux上的安装

python-3.6.4在centos-6.7安装:详细步骤:1、安装一些依赖的软件包yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4...

2018-07-05 18:45:09 137

原创 kafka基本操作实例

1、启动命令:(任意节点创建)nohup kafka-server-start.sh \/home/cry/apps/kafka_2.11-1.1.0/config/server.properties \1>/home/cry/apps/logs/kafka-logs/kafka_std.log \2>/home/cry/apps/logs/kafka-logs/kafka_err.l...

2018-07-03 20:14:53 166

原创 flume ----采集 目录到 到 HDFS

 案例:采集 目录到 到 HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到 HDFS 中去。根据需求,首先定义以下 3 大要素:数据源组件,即 source ——监控文件目录 : spooldir        spooldir 特性:     1、监视一个目录,只要目录中出现新文件,就会采集文件中的内容     2、采集完成的文件,会被 agen...

2018-07-02 20:48:03 913

原创 flume网络端口 收集数据

1、在$FLUME_HOME/agentconf 目录下创建一个数据采集方案,该方案就是从一个网络端口收集数据,也就是创一个任意命名的配置文件如下:netcat-logger.properties文件内容如下:# 定义这个 agent 中各个组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置 source 组件:r1a1.sources...

2018-07-02 19:08:27 2349

原创 Flume知识要点

1.Flume 的数据流由事件(Event)贯穿始终。2.事件是 Flume 的基本数据单位, 它携带日志数据(字节数组形式)并且携带有头信息,这些 Event 由 Agent 外部的 Source 生成,当 Source 捕获事件后会进行特定的格式化,然后 Source 会把事件推入(单个或多个)Channel 中。3.可以把Channel 看作是一个缓冲区,它将保存事件直到 Sink 处理完该...

2018-07-02 17:32:17 265

原创 hive创建表

要注意;user是一个关键字,不能普通的使用;不能直接将其作为表名,列名;如果需要使用user ,应该这样:`user`          是tab键上面的一个按键。

2018-07-01 21:06:01 238

linuxs上关于mysql的安装

linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装linuxs上关于mysql的安装

2018-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除