大数据球球
码龄12年
  • 1,086,989
    被访问
  • 279
    原创
  • 74,669
    排名
  • 87
    粉丝
关注
提问 私信

个人简介:每天进步一点点总会有所成功

  • 加入CSDN时间: 2010-10-28
博客简介:

薛秋艳的博客

博客描述:
每天积累,总会进步
查看详细资料
  • 3
    领奖
    总分 344 当月 12
个人成就
  • 获得97次点赞
  • 内容获得59次评论
  • 获得250次收藏
创作历程
  • 1篇
    2022年
  • 6篇
    2021年
  • 8篇
    2020年
  • 13篇
    2019年
  • 37篇
    2018年
  • 20篇
    2017年
  • 26篇
    2016年
  • 234篇
    2015年
成就勋章
TA的专栏
  • hive学习
    3篇
  • spark
    3篇
  • doris
    1篇
  • html收藏
    7篇
  • css
    6篇
  • wordpress学习
    15篇
  • ssh三大框架学习
    3篇
  • ajax学习
    2篇
  • php学习
    1篇
  • 转载别人文章
    2篇
  • js学习
    16篇
  • 数据库
    20篇
  • 报表学习
    1篇
  • Linux学习
    18篇
  • freemarker
    1篇
  • spring 学习
    1篇
  • log4j
    3篇
  • xml文件
    1篇
  • jquety datatable
    2篇
  • jquery
    6篇
  • springsecurity
    1篇
  • session
    1篇
  • struts2 标签
    11篇
  • jsp
    6篇
  • 算法
    4篇
  • MD5
    1篇
  • uedit
    2篇
  • Mybatis
    7篇
  • json
    2篇
  • 数据库 mysql
    27篇
  • 触发器
    1篇
  • pdfBox
    3篇
  • 数据库 oracle
    19篇
  • 端口被占用
    1篇
  • scala
    6篇
  • thumbnail 图片裁剪
    1篇
  • 数据库oracle
    16篇
  • 数据库oracle 日期比较
    4篇
  • 正则表达式
    1篇
  • struts2 上传
    1篇
  • 日期格式
  • jquery dropzone
    1篇
  • extjs
    3篇
  • struts2
    6篇
  • Font Awesome
    1篇
  • bootstraps
    1篇
  • bootstraps datatable
    3篇
  • instr
    1篇
  • Linux学习 ubuntu
    32篇
  • mysql
    20篇
  • jdk
    1篇
  • datatables
    3篇
  • trait
    1篇
  • eclipse
    1篇
  • eclipse快捷键
    2篇
  • ssh
    2篇
  • oracle
    2篇
  • securecrt
    1篇
  • java
    26篇
  • file
    1篇
  • Sublime Text 3
    1篇
  • git
    3篇
  • 励志
  • 人生观
    5篇
  • iptables
    1篇
  • tomcat
    1篇
  • pdf2htmlEX
    3篇
  • java Runtime.getRuntime()
    2篇
  • 设计模式
    2篇
  • 智力题
    1篇
  • 排序算法
    1篇
  • 面试
    2篇
  • python
    9篇
  • 数据类型
    2篇
  • SimpleHTTPServer
    2篇
  • 301 302
    1篇
  • linux命令
    5篇
  • ResultSet
    1篇
  • teamview
    1篇
  • 跨与问题
    1篇
  • httpcomponents-client
    1篇
  • 验证码
    1篇
  • URLRewrite
    1篇
  • ajax
    1篇
  • 乱码
    2篇
  • 文件下载
  • cookie
    1篇
  • IDE
    2篇
  • scrapy
    1篇
  • 变成习惯
    2篇
  • linux 学习之命令学习
    7篇
  • hadoop
    5篇
  • 二叉树
    1篇
  • r语言
    1篇
  • linux
    4篇
  • ubuntu
    1篇
  • python爬虫
    2篇
  • excel操作
    1篇
  • mongodb
    5篇
  • hive
    5篇
  • 大数据
    2篇
  • kettle
    2篇
  • 网络
    1篇
  • 定时任务
    2篇
  • AI
    1篇
  • fastText
    1篇
  • python3
    3篇
  • kotLin学习
    1篇
  • pandas
    2篇
  • 杂谈
    1篇
  • oozie
  • impala
    1篇
  • pyspark
    1篇
  • 开窗函数
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

提高我们工作效率的必备小软件之双击搜索

哈喽,大家好,我是球球。今天给大家安利一款非常试用小功能软件无需安装,点击就可用,建议大家收藏。
原创
发布博客 2022.01.20 ·
33 阅读 ·
0 点赞 ·
0 评论

从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践

近日,字节跳动旗下的企业级技术服务平台火山引擎正式对外发布了 ByteHouse。在打造 ClickHouse 企业版 ByteHouse 的过程中,我们经过了多年的探索与沉淀,今天和大家分享字节跳动过去使用 ClickHouse 的两个典型应用于优化案例。近日,字节跳动旗下的企业级技术服务平台火山引擎正式对外发布「ByteHouse」,作为 ClickHouse 企业版,解决开源技术上手难 & 试错成本高的痛点,同时提供商业产品和技术支持服务。作为国内规模最大的 ClickHouse 用户.
原创
发布博客 2021.11.22 ·
55 阅读 ·
0 点赞 ·
0 评论

数据仓库之模型设计

模型设计的三个阶段1. 概念模型:划分主题2. 逻辑模型:即一个主题可以分析归纳出的某几种具体生活常识中的总结点,例如自然人的 动产 不动产等。3. 物理模型:物理模型设计是指根据逻辑模型设计的结构为基础,设计数据对象的物理实现,比如表的命名规范、字段的命名规范、字段类型选择、分区设置、存储设置、更新方式、调度配置(调度时间、父子节点等)一、数据仓库与数据库的区别1、数据仓库是集成的,数据库为单一的业务提供服务。2、BI结构:数据整合层、数据服务层、应用分析层、信息展现层3、
原创
发布博客 2021.10.25 ·
193 阅读 ·
0 点赞 ·
0 评论

数仓分层简析

数据仓库分层的好处①,清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解②,减少重复开发:规范数据分层,开发一些通用的中间层数据,能减少极大的重复计算③,统一数据口径:通过数据分层提供统一的数据出口,同意对外输出的数据口径④,复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题为什么要建立数据仓库当你需要集中化管理你的数据时当你希望以更高效的方式使用数据时当你的数据量和复杂度到了需要一个团队来维护时当你希望想要数据驱动业务时当你想
原创
发布博客 2021.10.25 ·
42 阅读 ·
0 点赞 ·
0 评论

spark 处理mysql tinyint损失精度问题处理

Spark JDBC系列–Mysql tinyInt字段特殊处理spark中,mysql的方言主要约定了数据库中varbinary、bit和tinyint类型的特殊映射,其他类型使用默认映射,源码如下:private case object MySQLDialect extends JdbcDialect { override def getCatalystType( sqlType: Int, typeName: String, size: Int, md: MetadataBui
原创
发布博客 2021.09.13 ·
51 阅读 ·
0 点赞 ·
0 评论

Hive详细表结构操作(增加列,删除列,修改列,移动列)

Hive详细表结构操作(增加列,删除列,修改列,移动列)1、向Hive表中添加某个字段格式:alter table 表名 add columns (字段名 字段类型 comment '字段描述');例1:alter table table_name add columns (now_time string comment '当前时间');例2:alter table table_name add columns (now_time varchar(300) comment '当前时间');2、在
原创
发布博客 2021.09.02 ·
701 阅读 ·
0 点赞 ·
0 评论

python启动小server

python 3 小server启动方式python3 -m http.server 8888python3 -m http.server 8888 &nohup python3 -m http.server 8888 &python2 小server启动方式python -m SimpleHTTPServer 8888python -m SimpleHTTPServer 8888 &nohup python -m SimpleHTTPServer 8000 &
原创
发布博客 2021.08.20 ·
95 阅读 ·
0 点赞 ·
0 评论

Spark提交命令和参数调优

参数意义和参考值:1.num-executors  线程数:一般设置在50-100之间,必须设置,不然默认启动的executor非常少,不能充分利用集群资源,运行速度慢2.executor-memory 线程内存:参考值4g-8g,num-executor乘以executor-memory不能超过队列最大内存,申请的资源最好不要超过最大内存的1/3-1/23.executor-cores 线程CPU core数量:core越多,task线程就能快速的分配,参考值2-4,num-execu.
原创
发布博客 2020.05.29 ·
218 阅读 ·
1 点赞 ·
0 评论

稍微整理一下 scala中的:: , +:, :+, :::, +++, 等操作

面试老是会问一些简单的操作 总是不会 总结一下package test/** * scala中的:: , +:, :+, :::, +++, 等操作; */object listTest { def main(args: Array[String]): Unit = { val list = List(1,2,3) // :: 用于的是向队列的头部追加数据,产生新的列表, x::list,x就会添加到list的头部 println(4 :: list) //输出
原创
发布博客 2020.05.12 ·
138 阅读 ·
0 点赞 ·
0 评论

数据仓库之拉链表,流水表,全量表,增量表

全量表:每天的所有的最新状态的数据,增量表:每天的新增数据,增量数据是上次导出之后的新数据。拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。流水表: 对于表的每一个修改都会记录,可以用于反映实际记录的变更。拉链表通常是对账户信息的历史变动进行处理保留的...
原创
发布博客 2020.04.14 ·
392 阅读 ·
0 点赞 ·
0 评论

学习怎么Hive表导出成csv文件

命令hive -e "set hive.cli.print.header=true; -- 将表头输出 select * from data_table where some_query_conditions" | sed 's/[\t]/,/g' > ttt.csvset hive.cli.print.header=true将表头输出;sed ‘s/[\t]/,/g’ ...
原创
发布博客 2020.04.14 ·
472 阅读 ·
0 点赞 ·
0 评论

doris 部署总结

最近调研doris 吧一些安装和部署的细节做一下记录吧 以后可以用:首先是安装 建议用docker 11的版本在Linus安装一直都有问题 在docker就可以成功安装:具体步骤:1. pull doris dev docker imagesudo docker pull apachedoris/doris-dev:build-env-1.1 2. dowload doris-0.1...
原创
发布博客 2020.04.14 ·
2662 阅读 ·
0 点赞 ·
0 评论

用hive命令行动态往分区表里插入数据

set hive.exec.dynamic.partition=true; -- 打开动态分区sethive.exec.max.dynamic.partitions.pernode=1000;set hive.exec.dynamic.partition.mode=nonstrict;-- 设置为非严格模式这个跟第一个是必须的insert overwrite table app_bigdat...
原创
发布博客 2020.04.14 ·
847 阅读 ·
0 点赞 ·
1 评论

spark设置日志输出级别

Spark 通过 spark-submit 设置日志级别(对我好像没有起作用但是记录一下吧)这里的log4j配置可以是 log4j.properties 或者 log4j.xml ,没有限制spark-submit --conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j.properties"配置示例...
原创
发布博客 2020.04.14 ·
1062 阅读 ·
0 点赞 ·
0 评论

如何限制Spark作业失败的重试次数?

前言最近有个spark程序因为资源不足以及其他原因会在第一次提交时候失败,然后又会不断提交,导致过多的系统资源被无效占用。因此想限制Spark作业失败的重试次数,如果第一次失败,就让作业直接失败,那么该具体该如何实现呢?解决方法首先查看了spark的属性配置,发现我们使用spark.yarn.maxAppAttempts属性在提交程序时限制其重试次数,如:spark-submit --...
转载
发布博客 2020.01.11 ·
1187 阅读 ·
0 点赞 ·
0 评论

hive小文件处理方法

hive方法处理set hive.merge.mapfiles=true; -- map only job 结束是合并小文件set hive.merge.mapredfiles=true; -- 合并reduce输出的小文件set hive.merge.smallfiles.avgsize=256000000; -- 当输出文件平均大小小于该值,启动新job合并文件set hive.mer...
原创
发布博客 2019.12.20 ·
301 阅读 ·
0 点赞 ·
0 评论

Hive 开窗函数 汇总

近期用开窗函数比较多老是用不好 ,这里做一下汇总
原创
发布博客 2019.08.18 ·
1691 阅读 ·
0 点赞 ·
1 评论

安装pyspark

pip install pyspark 太慢切换镜像源pypi 镜像使用帮助pypi 镜像每 5 分钟同步一次。临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意,simple 不能少, 是 https 而不是 http设为默认升级 pip 到最新的版本 (>=10.0...
原创
发布博客 2019.08.11 ·
1138 阅读 ·
1 点赞 ·
0 评论

hive拆分json数组取出各个值的第二层

select id,secondLevel item,indexValue scorefrom (select id,split(regexp_replace(regexp_extract(detail,'^\\[(.+)\\]$',1),'\\}]}\\,\\{', '\\}]}\\|\\|\\{'),'\\|\\|') as L1select * from datatable....
原创
发布博客 2019.08.10 ·
1998 阅读 ·
0 点赞 ·
0 评论

Hive Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...
转载
发布博客 2019.05.30 ·
194 阅读 ·
1 点赞 ·
0 评论
加载更多