mas2005
码龄8年
关注
提问 私信
  • 博客:46,308
    问答:73
    46,381
    总访问量
  • 28
    原创
  • 2,250,590
    排名
  • 4
    粉丝
  • 0
    铁粉

个人简介:数据挖掘

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-11-29
博客简介:

mas2005的博客

查看详细资料
个人成就
  • 获得8次点赞
  • 内容获得6次评论
  • 获得36次收藏
创作历程
  • 1篇
    2022年
  • 8篇
    2019年
  • 22篇
    2018年
成就勋章
TA的专栏
  • 数据仓库
  • redis
    1篇
  • hive
    1篇
  • flume
    3篇
  • hadoop
    3篇
  • kafka
    3篇
  • python
    2篇
  • mysql
    2篇
  • spark
    5篇
  • HBase
    3篇
  • Oracle
    3篇
  • java
    2篇
  • sqoop
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

win10 设置定时调度任务 运行python脚本

一、打开【我的电脑-属性-控制面板-系统与安全-管理工具-任务计划程序】二、打开【任务计划程序】,点击【创建任务】三、在【常规】页签填写内容,名称和描述 是为了描述该定时任务。以便于清晰该任务的作用;至于安全选项,可以根据自身任务所处的环境设置。四、选择【触发器】页签,点击【新建】-【新建触发器页签】。这里是设置该定时任务执行的方式,如一次性任务、定时每日执行、定时每周执行等等五、选择【操作】页签,点击【新建】进入【新建操作】页面。这一步是比较关键的。5.1 操.
原创
发布博客 2022.02.14 ·
1508 阅读 ·
0 点赞 ·
1 评论 ·
5 收藏

redis的过期策略以及内存淘汰机制

分析:这个问题其实相当重要,到底redis有没用到家,这个问题就可以看出来。比如你redis只能存5G数据,可是你写了10G,那会删5G的数据。怎么删的,这个问题思考过么?还有,你的数据已经设置了过期时间,但是时间到了,内存占用率还是比较高,有思考过原因么?回答:redis采用的是定期删除+惰性删除策略。为什么不用定时删除策略?定时删除,用一个定时器来负责监视key,过期则自动删除。虽然内...
原创
发布博客 2019.08.29 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

消费kafka数据:处理消息模块改成为多线程的实现方式

package application;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.time.Dur...
原创
发布博客 2019.08.24 ·
368 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Hbase 操作时出现:Server is not running yet

问题:解决办法:1)启动Hadoop2)输入指令:hadoop dfsadmin -safemode leave出现该问题的原因是:hadoop处在安全模式下。所以hbase的操作会出现异常。造成此问题的故障是:在没有退出旧版Hbase的情况下,擅自将其删除,然后按照了新版本的Hbase,HADOOP会自动进入安全模式。...
原创
发布博客 2019.08.22 ·
5074 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

并发架构

画了一张目前公司刚设计的基础图,热点并发情况下的架构图
原创
发布博客 2019.07.09 ·
276 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux 虚拟机增加磁盘

1.第一步,在此处增加磁盘容量2.第二步,执行df,没有啥变化3.fdisk -l 发现容量是增加了4.
原创
发布博客 2019.06.14 ·
190 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

日常问题:今日数据导入到MySQL,出现table is full问题,待解决

今天,将hadoop一份2G数据,通过sqoop和navicate工具分别导入到mysql数据库,出现了table is full 的问题。尚未解决!
原创
发布博客 2019.06.12 ·
326 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sqoop:使用sqoop工具,把数据从MySQL导入到hive。

sqoop import \--connect jdbc:mysql://had01:3306/DB_CRY_TEST \--username root \--password root \--table POI_INFO \--fields-terminated-by "," \--lines-terminated-by "
" \--hive-import \--hive-o...
原创
发布博客 2019.05.29 ·
211 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka_2.12测试操作

--1.创建topic主题kafka-topics.sh --create --zookeeper had01:2181,had02:2181,had03:2181 --replication-factor 3 --partitions 3 --topic test_shell--2.在had01执行生产者的命令kafka-console-producer.sh --broker-list ...
原创
发布博客 2019.05.22 ·
321 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中。总的来说,使用 Bulk Load 方式由于利用了...
原创
发布博客 2018.11.27 ·
222 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

正则例子

2013:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_SO310:0,SB_TOTALWAGES_SO410:0,SB_TOTALWAGES_SO510:0,SB_TOTALWAGESDIS:空},2014:{SB_TOTALWAGES_SO110:0,SB_TOTALWAGES_SO210:0,SB_TOTALWAGES_...
原创
发布博客 2018.09.13 ·
245 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Navicate导入数据到Oracle

操作手册说明:使用Navicate工具进行数据导入。步骤:1.选定需要导入数据的表;2.右键数据表,选择“导入向导”3.选择原数据的文本格式,下一步:4.选择数据源5.选择分隔符,再选择栏位分隔符,根据原数据中的分割符号,比如逗号,分号等。6.此页面可不做操作,直接下一步;7.选择好目标表相当于再次确认将要导入数据的目标表。8.选择源...
原创
发布博客 2018.09.12 ·
2131 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

OOM:Java heap space

今日写代码。出现一个OOM问题:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space    at java.lang.Class.getDeclaredFields0(Native Method)    at java.lang.Class.privateGetDeclaredFields(Unknow...
原创
发布博客 2018.09.07 ·
608 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

用Java实现去除文本文件中的空行

package com.chen.work.day0905;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.io.IOExc...
原创
发布博客 2018.09.05 ·
4521 阅读 ·
2 点赞 ·
1 评论 ·
5 收藏

PL\SQLPLSQL Developer 12 (64 bit)安装配置

第一步,Oracle实例安装目录:D:\ProgramData\instantclient_11_2第二步,plsql开发工具安装在:D:\ProgramData\plsqldevtnsnames.ora文件放入到如下目录中:D:\ProgramData\plsqldev
etwork\ADMIN---------------第三步创建环境变量:变量名:NLS_LANG变量值...
原创
发布博客 2018.09.03 ·
6169 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

HBase优化实战

背景Datastream一直以来在使用HBase分流日志,每天的数据量很大,日均大概在80亿条,10TB的数据。对于像Datastream这种数据量巨大、对写入要求非常高,并且没有复杂查询需求的日志系统来说,选用HBase作为其数据存储平台,无疑是一个非常不错的选择。HBase是一个相对较复杂的分布式系统,并发写入的性能非常高。然而,分布式系统从结构上来讲,也相对较复杂,模块繁多,各个模块...
原创
发布博客 2018.08.10 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

用IntelliJ IDEA :park和hive整合编写代码实现

代码:package sparksql_hiveimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContextobject test { def main(args: Array[String]): Unit = { System.setProp...
原创
发布博客 2018.07.30 ·
891 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

NBA之spark-hive解析答案

这里的两份数据是NBA 2017-2018赛季 的比赛结果nba_game.csv和比赛详情nba_game_detail.csv关于NBA,需要了解一个背景知识:    NBA总共有30支球队    NBA的每支球队在每个赛季的常规赛,都会有82场比赛    NBA的每支球队在赛季初都会有场次不等的季前赛,但是按照时间的先后顺序排序之后,最后的82场比赛是常规赛,其余的都是季前赛  ...
原创
发布博客 2018.07.30 ·
2132 阅读 ·
0 点赞 ·
1 评论 ·
5 收藏

大数据编程犯的错误系列

1.两个路径的区别1) /home/cry/zookeeper.out     这个路径,在spark编程中,系统会认为是在从进群取这个文件。相当于这个路径:hdfs://bd1803/home/cry/zookeeper.out 2) file:///home/cry/zookeeper.out    这个路径是从本地中取出文件。本地可以理解为:windows 和linux,看编写代码的...
原创
发布博客 2018.07.30 ·
846 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS文件误删除之恢复

启动HDFS的垃圾回收站为了防止误删,一般默认是关闭的,需要我们自己配置文件打开。修改core-site.xml    <property>               <name>fs.trash.interval</name>               <value>1440</value>              ...
原创
发布博客 2018.07.21 ·
5332 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏
加载更多