不急吃口药
码龄8年
关注
提问 私信
  • 博客:58,617
    社区:4
    问答:1,413
    60,034
    总访问量
  • 67
    原创
  • 1,463,155
    排名
  • 28
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-03-06
博客简介:

莫慌 吃口药

博客描述:
固步自封,必将自取灭亡!
查看详细资料
个人成就
  • 获得30次点赞
  • 内容获得9次评论
  • 获得170次收藏
创作历程
  • 72篇
    2019年
  • 1篇
    2018年
成就勋章
TA的专栏
  • 大数据资料笔记整理
    60篇
  • 大数据
  • 滴普科技
    1篇
  • linux
    1篇
兴趣领域 设置
  • 大数据
    spark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

《大数据之路:阿里巴巴大数据实践》

《大数据之路:阿里巴巴大数据实践》语录目录一、数据采集 1◆日志采集 1▼浏览器的页面日志采集 1▼无线客户端的日志采集 2(1) 页面事件 3(2) 控件点击事件 3(3) 其它事件 3(4) 特殊场景 3(5)H5 & Native 日志统一 4(6)设备标识 4(7) 日志传输 5▼日志采集挑战 5(1) 日志分流与定制处理 5...
原创
发布博客 2019.11.22 ·
778 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

大数据公司面试题准备

*100万条数据取topN,手写代码(手写快速排序)*如何一个很大的文件把你的linux磁盘整崩溃了,怎么去查找这个文件?(这里的崩溃是指占用磁盘过多,什么命令找出这个文件;注意面试官提问问题前的提示) df -h 通过文件系统来获取空间大小的信息 du -h 通过搜索文件来计算每个文件的大小然后累加得到的值(能在文件系统里面看到的文件才会被du统计) 思路,先df -h,找...
原创
发布博客 2019.10.30 ·
477 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

用户画像

一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方...
转载
发布博客 2019.10.22 ·
698 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

时间Time处理总结

一、log时间戳转换成日期格式: 代码的时间戳不需要像hive中的那样切割成秒, // val ct: String = ct_time.substring(0,10)simpledateformat线程不安全,用fastdataformat------------val ct_time: String = firstJson.ge...
原创
发布博客 2019.10.19 ·
400 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库全流程

数仓建设的思路流程:1梳理业务流程2梳理数据流3数据类型、存储介质、样例数据4需求-功能性需求、非功能性需求(性能、时效性)-------------------------------------数据来源rdbmslognginxhttpsthird api mongoDB :第三方数据http请求,访问第三方API, 第三...
原创
发布博客 2019.10.14 ·
10403 阅读 ·
16 点赞 ·
2 评论 ·
115 收藏

spark任务提交流程图

原创
发布博客 2019.10.12 ·
350 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

SparkSql之UDF、UDAF、UDTF

UDF----------------------------------------完整的示例:object SparkSQL { def main(args:Array[String]):Unit = { //创建SparkConf()并设置App名称 val conf = new SparkConf().setAppName("SparkSQLDemo").setMa...
原创
发布博客 2019.10.11 ·
712 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kafka动态扩容

kafka动态扩容 --- https://www.orchome.com/36 KafkaManager更直观了解kafka将服务器添加到Kafka集群非常简单,只需为其分配唯一的 broker ID并在您的新服务器上启动Kafka即可。但是,这些新的服务器不会自动分配到任何数据分区,除非将分区移动到这些分区,否则直到创建新 topic ...
转载
发布博客 2019.10.10 ·
2013 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Kafka的体系结构

/*** 生产者 */ public class TestProducer { public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "node4:9092,node2...
原创
发布博客 2019.10.09 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集群中增加snappy压缩库

查看hadoop集群是否支持snappy库(可以看到snappy是没有安装的):$ hadoop checknative16/12/06 15:08:39 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version16...
原创
发布博客 2019.10.08 ·
250 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume架构图以及模板

模板:================主要方式===================a1.sources = r1 a1.channels = c1 c2a1.sinks = s1 s2a1.sources.r1.type=spooldira1.sources.r1.spoolDir =/root/mya1.sources.r1.selector.type=multipl...
原创
发布博客 2019.10.06 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase图

原创
发布博客 2019.10.05 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase API

scala版见url : https://blog.csdn.net/xiushuiguande/article/details/79766469------------------------------------------Admin(操作namespace、table、column)列出所有的名称空间NamespaceDescriptor[]nsds = admin.list...
原创
发布博客 2019.10.05 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive经典案例需求

=============hql补强点!练习题===============================01,01,8001,02,9001,03,9902,01,7002,03,8003,03,8004,01,5004,02,30create table test1(name int,course int,score int)row format del...
原创
发布博客 2019.10.05 ·
681 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

UDF、UDAF、UDTF

UDF:第一个udf ---- 去除引号add jar /opt/datas/hiveudf2.jar ;create temporary function my_removequotes as "com.beifeng.senior.hive.udf.RemoveQuotesUDF" ;insert overwrite table default.bf_log_comm s...
原创
发布博客 2019.10.04 ·
555 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive体系图

hive_metastore: 安装hive(配置远程的元数据管理) ----> https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_hadoop-ha/content/ch_HA-Hive.html远程模式中,选取某一台安装有hive的节点,配置metastore,启动metastore...
原创
发布博客 2019.10.04 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

yarn参数配置

原创
发布博客 2019.10.04 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mapreduce操作经验

MR的本地运行 将本地hadoop环境安装,将hadoop.dll文件及winutils.exe放入hadoop的bin目录下,并配置环境变量; ---- (本地运行MR程序必须安装hadoop) System.setProperty("HADOOP_HOME_USER","root");System.setProperty("hadoop.home.dir","D:\\hadoop...
原创
发布博客 2019.10.04 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

job提交流程图

原创
发布博客 2019.10.04 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mr全流程图

原创
发布博客 2019.10.04 ·
831 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多