自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 sqoop 抽数特殊字段类型

之前的sqoop 抽数一直被 row_id 字段 报错 ,今天终于解决。加入这2行代码 可以解决问题。

2023-04-03 17:28:07 103

原创 Airflow 常见问题汇总

1- 中文注释导致dag 不显示。Airflow 常见问题汇总。2- task 依赖关系。

2023-01-14 16:54:32 343

原创 centos 7.9 服务器安装 airflow ,踩坑过程

服务器安装 airflow ,踩坑过程

2022-11-17 17:58:59 194

原创 sqoop 多进程增量抽数报错问题解决

增量抽数 会 共用 --target-dir /sqoop/conditiontest 这个文件。多进程的情况下 ,会出现找不到 文件 错误;单脚本测试 正常;晚上多进程抽数 就会报错。加上table_out 后 ,问题解决。

2022-11-15 10:37:58 190

原创 2021-08-10

保险股价趋势图分析 测试了一下,matplotlib.pyplot 的作图 ,折线图趋势如下: 中国平安下跌最快 ,反弹也是最猛的,看好新华保险,前期下跌幅度小,后期反弹凶猛,准备加仓 。具体代码如下:import pandas as pdimport numpy as np import matplotlib.pyplot as pltimport tushare as tsfrom datetime import datetime, timedelta#解决中文显示问题

2021-08-10 17:51:59 85

原创 count(distinct) 消耗资源过大的解决方案

count(distinct) 消耗资源过大的解决方案前几天接到个需求,有7个字段 计算 如下:selectstat_date,count(distinct case when datediff(aprv_date,conf_date) = 0 then uuid else null end) as ind_1from table_1其中 table_1 大概有 4000万的数据量 ,7个 count(distinct 差点把服务器跑崩溃,半个小时才跑完。以下是优化过程:1,.

2020-12-31 16:23:26 889

原创 sqlite学习—df数据框、sqlite之间的导入和导出

sqlite学习—df数据框、sqlite之间的导入和导出# sqlite 导入 导出 sql代码执行import tushare as tsimport pandas as pdimport numpy as npimport sqlite3# 准备工作:数据,路径,光标data=ts.get_h_data("601939") # 股票数据conn=sqlite3.co...

2018-11-27 17:34:03 1026

原创 CSV文件导入Python,遇到问题解决

#导入相应模块# -*- coding: utf-8 -*-import reimport os import pandas as pdimport numpy as npimport csv#定义一个空列表 data_list = []file_in = "/Desktop/touzhiren/"file_out = "/Desktop/tzrhz1126.csv"f...

2018-11-27 14:43:31 1510 1

转载 同一文件夹类所有CSV文件汇总——Python

同一文件夹类所有CSV文件汇总

2018-11-26 14:21:11 939

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除