自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 IDEA修改SVN地址

公司的SVN地址改变了(本地项目还没同步) (一) 选中项目,右键Subversion --> Relocate From URL路径保持不变(修改To URL为最新路径) (二)选中项目,右键Subversion --> Update Directory 勾选U...

2019-01-03 19:43:08 12127 5

原创 oracle常用命令(hive转换)

字段类型: 名称:SERIES_NAME VARCHAR2(200) 数字:ONWAY NUMBER 标识:FLAG NUMBER(1) 日期:DATE_DAY VARCHAR2(20) create table CUSTOMER_COUNT ( ...

2018-11-23 16:23:41 774 0

原创 oracle常用操作(汇总)

截取某个字段前两位(所有行) select * from tt_presale_sales_repair update tt_presale_sales_repair set series_code=substr(series_code,1,2) commit;

2020-06-23 10:44:46 37 0

原创 区域分类(业务相关)

华中RSSC 1001 安徽、河南 华南RSSC 1003 福建、广东、海南 江苏RSSC 1004 江苏 山东RSSC 1006 山东 华北RSSC 1007 河北、内蒙古、山西 西北RSSC 1008 甘肃、宁夏、青海、陕西、新疆 西南RSSC 1010 四川、重庆 中南RSSC...

2020-06-18 10:39:08 77 0

原创 sqoop常用命令(汇总)

sqoop版本:1.4.6+cdh5.13.3+132oracle导入到hdfs(parquet格式)oracle导入到hdfs(text格式)oracle导入到hdfs(rowid字段)oracle导入到hivehdfs导出到oraclehdfs导出到mysql oracle导入到hdfs(pa...

2020-06-05 17:19:28 91 0

原创 ogg抽数据到hdfs问题(汇总)

1、新项目使用ogg抽数据按照年月日+小时的形式保存到hdfs,由于ogg数据是保留修改前数据和修改后数据的,所以采用json格式保存文本 {"table":"TEST.TT_SALES_RECORDS","op_type":"...

2020-05-19 10:55:50 111 0

原创 SparkSreraming读kafka数据(json复杂格式)

项目简介:源端改造,使用ogg从oracle抽数据到kafka,需要自己写代码解析kafka中ogg数据,数据格式比较复杂,需要二次解析! spark:2.1.0版本 kafka:0.9.0版本 <dependency> <groupId>org.apach...

2020-05-13 16:30:05 59 0

原创 时间戳负数转换问题

由于甲方人员使用sqoop抽数据,把时间类型自动转换成了时间戳,而且是毫秒级别的。。 于是我们尝试使用hive的时间戳方法转换成日期 select from_unixtime(cast(-2114409600000/1000 as int),'yyyy-MM-dd HH:mm:ss�...

2020-04-10 13:32:32 758 0

原创 Hbase表使用总结

业务逻辑比较复杂,有很多是根据VIN码来判断的,于是使用hbase并且把VIN码作为rowkey进行设计。 Column Family设计原则:一个静态数据,一个动态数据。 VERSIONS设计原则:看历史数据保留价值。 (1)创建Hbase表 create 'testTable...

2020-03-25 17:35:50 51 0

原创 [python]转换文件编码格式

临时需求,需要把两年的csv文件转换格式,因为utf-8文件用Excel打开是乱码。。。于是想着批量处理方案: # -*- encoding: utf-8 -*- """ fc_test.py Created on 2020/3/9 0009 下午 5:06 @aut...

2020-03-09 18:59:09 146 0

原创 数据库迁移问题

(一)Spark读数据为空问题 近期数据库迁移,使用Sqoop抽数据到Hive,然后用Spark读数据。 经过测试sqoop底层是使用MapReduce程序把Oracle数据导入到Hive中的 所以我们应该使用hive的引擎去读这些表,需要在Spark代码中添加配置 hiveContext.set...

2019-12-30 13:48:17 86 0

原创 机器学习-KMeans聚类算法

K-Means和KNN区别: KNN是监督学习的分类算法,有对应的类别输出。 KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。 K-Means是无监督学习的聚类算法,没有样本输出; K-Means则有明显的训练过程,找...

2019-12-29 21:33:17 109 0

原创 SparkSQL分区OutOfMemory

由于SparkSQL默认200个分区,为了处理小文件决定使用reparation和coalesce重分区,代码如下 (方式一)df_1.coalesce(1).createOrReplaceTempView(“table_tmp”) 竟然报错。。 Job aborted due to stage ...

2019-12-26 18:28:39 42 0

原创 ES集群5.3.0升级7.3.0

最近有新项目需要使用中文分词,然鹅之前安装的ES5.3.0需要安装插件,而且老版也没有自带安全验证,考虑之后还是升级吧 (一)下载所需要的软件 wget -b https://download.java.net/java/GA/jdk11/13/GPL/openjdk-11.0.1_linux-x...

2019-12-23 19:28:44 155 0

原创 机器学习-决策树

未完待续

2019-12-22 14:55:13 29 0

原创 机器学习-逻辑回归

后期补。。

2019-12-15 21:48:38 16 0

原创 CentOS7安装Elasticsearch 7.3.0

由于之前使用的是Elasticsearch 5.3.0,需要升级到Elasticsearch 7.3.0

2019-12-10 17:00:31 21 0

原创 梯度下降法(下)

梯度下降法2

2019-12-08 18:40:44 18 0

原创 梯度下降法(上)

梯度下降法

2019-12-08 18:39:49 19 0

原创 机器学习-回归算法(下)

评价分类结果(上) 线性回归的评价指标 《机器学习的敲门砖:归一化与KD树》 特征工程系列:特征预处理(上) 模型之母:简单线性回归&最小二乘法 模型之母:简单线性回归的代码实现 模型之母:多元线性回归 《还不了解梯度下降法?看完这篇就懂了!》 《手动实现梯度下降(可视...

2019-12-08 18:36:08 22 0

原创 机器学习-回归算法(上)

之前我们介绍的KNN算法属于分类(Classification),即Label为离散的类别型(categorical variable),如:颜色类别、手机品牌、是否患病等。 而简单线性回归是属于回归(Regression),即Label为连续数值型(continuous numerical va...

2019-12-01 18:37:24 17 0

原创 数据预处理(特征工程)

本次主要介绍处理分类型特征:编码与哑变量、二值化与分段 略

2019-11-24 22:49:30 141 0

原创 机器学习-KNN分类算法(下)

之前写了KNN的基本概念和python基本实现方法,并没有对模型的好坏进行判断,接下来使用训练数据集和测试数据集来判断(使用accurcay分类指标) 编写自己的train_test_split测试数据集 未完待续 ...

2019-11-17 21:19:26 25 0

原创 核对Spark生成的数据流程(一)

日常开发中经常会验证spark生成的数据是否和源oracle库中数据join之后的结果相同? 也就是判断spark sql --> hive sql --> oracle sql 执行结果一致即可,比如我们需要核对201907月的数据: (1)在测试oracle中执行sql selec...

2019-11-12 18:44:53 58 0

原创 机器学习-KNN分类算法(上)

K近邻算法(k-NearestNeighbor) k近邻算法是机器学习算法最简单的算法,流程如下: (1) 计算测试对象到训练集中每个对象的距离 (2)按照距离的远近排序 (3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居 (4)统计这k个邻居的类别频率 (5)k个邻居里频率...

2019-11-10 20:54:30 45 0

原创 重装系统(windows)

准备工作: 1、备份C盘及桌面重要文件 2、大小4G左右的U盘,做成U盘PE启动盘 3、下载win7 iso镜像 正式安装: 1、在电脑上插入U盘,开机启动时按F12或Fn+F12 2、在启动管理窗口选择USB HDD,按回车键 3、在U盘主菜单,选择【02】运行PE精简版 4、打开一键装机工具...

2019-10-22 11:07:53 49 0

原创 IDEA常用快捷键

1.Ctrl+F 搜索文件中文本(变量) 2.Ctrl+H 查找所有文件中文本(变量) 3.Ctrl+Shift + T 搜索类/文件

2019-09-24 11:42:10 32 0

原创 Spark2 SQL动态分区报错

报错信息如下: ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveExce...

2019-08-30 13:46:22 233 0

原创 Docker组件安装(centos7)

查看linux版本号 uname -a cat /etc/redhat-release 使用 yum方式安装Docker组件 #修改主机名 hostnamectl --static set-hostname docker-node1 #安装 Docker组件 yum -y install d...

2019-08-29 14:57:11 67 0

原创 Hive常用の方法二

增加hive执行内存 SET mapreduce.map.memory.mb=8192; SET mapreduce.map.java.opts='-Xmx6552M'; SET mapreduce.reduce.memory.mb=8192; SET mapreduce....

2019-08-15 17:43:00 60 0

原创 Hive常用の方法一

Create 建表 -- 直接建表 create table if not exists student( id string comment 'id ', name string comment '名字' ) partitioned by ( date...

2019-08-15 17:05:49 40 0

原创 Spark SQL处理小文件

方法一 使用repartition(spark2.4之后) spark.sql("create table table1 as select /*+ REPARTITION(4) */ age,count(*) from table_1 where age >18 ") ...

2019-08-14 17:29:40 833 0

原创 获取指定hive库的schema

列表[] 元祖() sql =''' select * from test where day='%s' and hour='%s'; ''' sql = sql % (20190...

2019-08-09 16:04:43 1732 0

原创 spark kryo压缩报错问题

由于上游数据湖数据压缩格式改变 使用spark sql的thrift jdbc接口查询数据时报错 19/07/29 06:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, svldl015.csvw.co...

2019-07-29 10:45:07 134 0

原创 第一周《统计学基础》

示例数据一:23 29 20 32 23 21 33 25 (1) mean 算数平均数:所有数据的平均值 (23+29+20+32+23+21+33+25)/8=25.75 几何平均数:所有数值的连乘积开项数次方根 ³√(ABC) 加权平均数:所有数值乘以自己的权重后相加/...

2019-07-17 18:12:02 75 0

原创 logstash从kafka读json格式日志输入es

老大让研究ELK,经过几天的摸索,终于把流程跑通了。 版本: kafka 0.10.2.0 logstash 5.3.0 elasticsearch 5.3.0 修改logstash中配置文件 vi logstash.conf input { kafka{ bootstra...

2019-07-15 17:44:56 2028 0

原创 Oozie-client的api读取集群workflow信息(kerberos认证)

引用maven <dependency> <groupId>org.apache.oozie</groupId> <artifactId>oozie-client</artifactId> ...

2019-07-08 13:55:40 501 0

原创 IDEA中配置properties文件

自从生产环境权限回收后,各种问题同时出现:测试数据库和生产数据库不一致,测试集群配置和生产集群配置文件不一致等 我承认是之前开发不规范,呃呃呃。。。 (1)在resources目录下新建 pro和test子目录 新建config.properties文件 hive.database = test...

2019-06-05 16:02:12 2236 0

原创 spark推测执行引发的思考

终于到周五了,打开电脑查看集群运行情况, 某个workflow原来执行完只需要1h,现在执行时间翻倍? workflow 历史执行时间 4:00-5:14 workflow2 历史执行时间 5:00-5:56 根据Start Time显示workflow在4:21开始执行,5:00被work...

2019-05-31 11:26:59 187 0

原创 hive外部表文件丢失

又是新的一周,倒杯茶,打开电脑查看集群运行情况,没有一个程序报错? 刚开心一会儿,结果查看数据好多空值?? 又是忙碌的早上,经过排查发现错误’/user/hive/tm_oil_level’路径不存在 不可能啊,这是hive外部表路径,即使删除外部表也不会删除该目录,难道谁偷偷把该目录删除了,也没...

2019-05-27 11:00:21 227 0

提示
确定要删除当前文章?
取消 删除