mas2005-CSDN博客

原创 win10 设置定时调度任务运行python脚本

一、打开【我的电脑-属性-控制面板-系统与安全-管理工具-任务计划程序】二、打开【任务计划程序】，点击【创建任务】三、在【常规】页签填写内容，名称和描述是为了描述该定时任务。以便于清晰该任务的作用；至于安全选项，可以根据自身任务所处的环境设置。四、选择【触发器】页签，点击【新建】-【新建触发器页签】。这里是设置该定时任务执行的方式，如一次性任务、定时每日执行、定时每周执行等等五、选择【操作】页签，点击【新建】进入【新建操作】页面。这一步是比较关键的。5.1 操.

2022-02-14 16:15:44 1551 1

原创 redis的过期策略以及内存淘汰机制

分析:这个问题其实相当重要，到底redis有没用到家，这个问题就可以看出来。比如你redis只能存5G数据，可是你写了10G，那会删5G的数据。怎么删的，这个问题思考过么？还有，你的数据已经设置了过期时间，但是时间到了，内存占用率还是比较高，有思考过原因么?回答:redis采用的是定期删除+惰性删除策略。为什么不用定时删除策略?定时删除,用一个定时器来负责监视key,过期则自动删除。虽然内...

2019-08-29 08:57:12 166

原创消费kafka数据：处理消息模块改成为多线程的实现方式

package application;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.time.Dur...

2019-08-24 18:54:26 395 1

原创 Hbase 操作时出现：Server is not running yet

问题：解决办法：1）启动Hadoop2）输入指令：hadoop dfsadmin -safemode leave出现该问题的原因是：hadoop处在安全模式下。所以hbase的操作会出现异常。造成此问题的故障是：在没有退出旧版Hbase的情况下，擅自将其删除，然后按照了新版本的Hbase，HADOOP会自动进入安全模式。...

2019-08-22 23:03:03 5104

原创并发架构

画了一张目前公司刚设计的基础图，热点并发情况下的架构图

2019-07-09 11:44:03 312

原创 Linux 虚拟机增加磁盘

1.第一步，在此处增加磁盘容量2.第二步，执行df，没有啥变化3.fdisk -l 发现容量是增加了4.

2019-06-14 10:51:00 212

原创日常问题：今日数据导入到MySQL，出现table is full问题，待解决

今天，将hadoop一份2G数据，通过sqoop和navicate工具分别导入到mysql数据库，出现了table is full 的问题。尚未解决！

2019-06-12 10:02:29 341

原创 sqoop:使用sqoop工具，把数据从MySQL导入到hive。

sqoop import \--connect jdbc:mysql://had01:3306/DB_CRY_TEST \--username root \--password root \--table POI_INFO \--fields-terminated-by "," \--lines-terminated-by "\n" \--hive-import \--hive-o...

2019-05-29 16:55:54 228

原创 kafka_2.12测试操作

--1.创建topic主题kafka-topics.sh --create --zookeeper had01:2181,had02:2181,had03:2181 --replication-factor 3 --partitions 3 --topic test_shell--2.在had01执行生产者的命令kafka-console-producer.sh --broker-list ...

2019-05-22 14:23:22 335

原创通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中。总的来说，使用 Bulk Load 方式由于利用了...

2018-11-27 11:13:22 242

原创正则例子

2013:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_SO310:0,SB_TOTALWAGES_SO410:0,SB_TOTALWAGES_SO510:0,SB_TOTALWAGESDIS:空},2014:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_...

2018-09-13 14:31:43 270

原创 Navicate导入数据到Oracle

操作手册说明：使用Navicate工具进行数据导入。步骤：1.选定需要导入数据的表；2.右键数据表，选择“导入向导”3.选择原数据的文本格式，下一步：4.选择数据源5.选择分隔符，再选择栏位分隔符，根据原数据中的分割符号，比如逗号，分号等。6.此页面可不做操作，直接下一步；7.选择好目标表相当于再次确认将要导入数据的目标表。8.选择源...

2018-09-12 17:00:37 2172

原创 OOM：Java heap space

今日写代码。出现一个OOM问题：Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.lang.Class.getDeclaredFields0(Native Method) at java.lang.Class.privateGetDeclaredFields(Unknow...

2018-09-07 16:19:09 621

原创用Java实现去除文本文件中的空行

package com.chen.work.day0905;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.io.IOExc...

2018-09-05 22:38:10 4560 1

原创 PL\SQLPLSQL Developer 12 (64 bit)安装配置

第一步，Oracle实例安装目录：D:\ProgramData\instantclient_11_2第二步，plsql开发工具安装在：D:\ProgramData\plsqldevtnsnames.ora文件放入到如下目录中：D:\ProgramData\plsqldev\network\ADMIN---------------第三步创建环境变量：变量名：NLS_LANG变量值...

2018-09-03 20:21:00 6249

原创 HBase优化实战

背景Datastream一直以来在使用HBase分流日志，每天的数据量很大，日均大概在80亿条，10TB的数据。对于像Datastream这种数据量巨大、对写入要求非常高，并且没有复杂查询需求的日志系统来说，选用HBase作为其数据存储平台，无疑是一个非常不错的选择。HBase是一个相对较复杂的分布式系统，并发写入的性能非常高。然而，分布式系统从结构上来讲，也相对较复杂，模块繁多，各个模块...

2018-08-10 17:12:53 307

原创用IntelliJ IDEA ：park和hive整合编写代码实现

代码：package sparksql_hiveimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContextobject test { def main(args: Array[String]): Unit = { System.setProp...

2018-07-30 21:43:25 909

原创 NBA之spark-hive解析答案

这里的两份数据是NBA 2017-2018赛季的比赛结果nba_game.csv和比赛详情nba_game_detail.csv关于NBA，需要了解一个背景知识： NBA总共有30支球队 NBA的每支球队在每个赛季的常规赛，都会有82场比赛 NBA的每支球队在赛季初都会有场次不等的季前赛，但是按照时间的先后顺序排序之后，最后的82场比赛是常规赛，其余的都是季前赛 ...

2018-07-30 21:42:59 2195 1

原创大数据编程犯的错误系列

1.两个路径的区别1) /home/cry/zookeeper.out 这个路径，在spark编程中，系统会认为是在从进群取这个文件。相当于这个路径：hdfs://bd1803/home/cry/zookeeper.out 2) file:///home/cry/zookeeper.out 这个路径是从本地中取出文件。本地可以理解为：windows 和linux，看编写代码的...

2018-07-30 20:29:56 869

原创 HDFS文件误删除之恢复

启动HDFS的垃圾回收站为了防止误删，一般默认是关闭的，需要我们自己配置文件打开。修改core-site.xml <property> <name>fs.trash.interval</name> <value>1440</value> ...

2018-07-21 16:40:47 5378 1

原创 spark运行出现的错误案例

1.错误描述：org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running ...

2018-07-21 16:06:31 2781 1

原创 MapReduce 超详细执行流程解读

1、一个大文件需要处理，它在在 HDFS 上是以 block 块形式存放，每个 block 默认为 128M存 3 份，运行时每个 map 任务会处理一个 split，如果 block 大和 split 相同（默认情况下确实相同），有多少个 block 就有多少个 map 任务，所以对整个文件处理时会有很多 map 任务进行并行计算2、每个 map 任务处理完输入的 split 后...

2018-07-20 22:09:24 565

转载 MapReduce剖析笔记之一：从WordCount理解MapReduce的几个阶段（转载）

WordCount是一个入门的MapReduce程序：package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...

2018-07-20 19:58:40 205

转载豆瓣250爬虫代码

#!/usr/bin/python3# -*- coding:utf-8 -*-# author: https://blog.csdn.net/zhongqi2513# ====================================================# 内容描述：爬取豆瓣Top250电影# =========================================...

2018-07-09 08:53:10 1357

转载 GROUP BY语句与HAVING语句的使用

一、GROUP BYGROUP BY语句用来与聚合函数(aggregate functions such as COUNT, SUM, AVG, MIN, or MAX.)联合使用来得到一个或多个列的结果集。语法如下：SELECT column1, column2, ... column_n, aggregate_function (expression) FROM tabl...

2018-07-09 08:51:13 207

原创 python在Linux上的安装

python-3.6.4在centos-6.7安装：详细步骤：1、安装一些依赖的软件包yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4...

2018-07-05 18:45:09 177

原创 kafka基本操作实例

1、启动命令：（任意节点创建）nohup kafka-server-start.sh \/home/cry/apps/kafka_2.11-1.1.0/config/server.properties \1>/home/cry/apps/logs/kafka-logs/kafka_std.log \2>/home/cry/apps/logs/kafka-logs/kafka_err.l...

2018-07-03 20:14:53 215

原创 flume ----采集目录到到 HDFS

案例：采集目录到到 HDFS采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到 HDFS 中去。根据需求，首先定义以下 3 大要素：数据源组件，即 source ——监控文件目录 : spooldir spooldir 特性： 1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容 2、采集完成的文件，会被 agen...

2018-07-02 20:48:03 2481

原创 flume网络端口收集数据

1、在$FLUME_HOME/agentconf 目录下创建一个数据采集方案，该方案就是从一个网络端口收集数据，也就是创一个任意命名的配置文件如下：netcat-logger.properties文件内容如下：# 定义这个 agent 中各个组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置 source 组件：r1a1.sources...

2018-07-02 19:08:27 2434

原创 Flume知识要点

1.Flume 的数据流由事件(Event)贯穿始终。2.事件是 Flume 的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些 Event 由 Agent 外部的 Source 生成，当 Source 捕获事件后会进行特定的格式化，然后 Source 会把事件推入(单个或多个)Channel 中。3.可以把Channel 看作是一个缓冲区，它将保存事件直到 Sink 处理完该...

2018-07-02 17:32:17 331

原创 hive创建表

要注意；user是一个关键字，不能普通的使用；不能直接将其作为表名，列名；如果需要使用user ，应该这样：`user` 是tab键上面的一个按键。

2018-07-01 21:06:01 319

mas2005的博客