个人资料总结
haishigecainiao
这个作者很懒,什么都没留下…
展开
-
hivesql string数值排序
hivesql string排序原创 2023-03-07 14:20:32 · 494 阅读 · 0 评论 -
Hivesql常用常新
hivesql原创 2023-01-11 14:24:31 · 160 阅读 · 0 评论 -
Dataworks使用记录
1. 调度参数设置bizdate = $[yyyymmdd-1+6/24] 6/24与数据和时区有关。(时区调度的问题 +6/24 调度时间为18:10, dt即为后天)(时区调度的问题 +6/24 调度时间为18:10, dt即为后天)目前的方案:协调依赖表生产完成时间,此表修改调度时间为17:10...原创 2022-01-17 16:07:01 · 309 阅读 · 0 评论 -
MAXcompute 使用问题记录
1. 20220113 遇到的问题情景: sql完成编译发布,表格提交生产环境,运行周期实例补数据20121210-2022011020220115开始的补数据日志中出现报警:Summary: WARNING:[101,79] implicit conversion from STRING to DOUBLE, potential data loss, use CAST function to suppress结果:20220115开始的数据丢失无用:查询到的官方解释不兼容SQL重写 (原创 2022-01-13 11:44:53 · 261 阅读 · 0 评论 -
QuickBI 使用记录
记录算法工程师在数据分析方面的小白问题和解决方案。1.数据源同步遇到问题情况:阿里云Maxcompute,同步空间和链接准确,但无法读到空间内的全部生产表。问题定位:原始用的key账号无法实时读到空间内的新生产表,每次申请不现实。已解决:新建空间管理账号,赋予自定义权限。阿里云项目空间:操作人需为dataworks空间管理员。Maxcompute空间管理:https://workbench.data.aliyun.com/console#/MCEngines操作人(da.原创 2021-12-31 10:18:37 · 991 阅读 · 0 评论 -
Pyspark S3操作记录
1. sparkdataframe to原创 2021-12-06 10:44:23 · 164 阅读 · 0 评论 -
pycharm logger 打印日志
1. logger.pyimport loggingimport oslog_dir = '../log_d'if not os.path.exists(log_dir): os.makedirs(log_dir)#创建一个loggerlogger = logging.getLogger(__name__)logger.setLevel(logging.DEBUG)#创建一个handler,用于写入日志文件log_path = log_dir+"/" # 指定文件输出路原创 2021-11-04 16:44:15 · 2192 阅读 · 0 评论 -
Python 交互数据库总结
1. 入库大数据量且快速,使用IO。import iofrom sqlalchemy import create_enginedef write_to_table(df, table_name,schema, if_exists='append'): #engine database db_engine = create_engine('//user:password@host/dbname') string_data_io = io.StringIO() d...原创 2021-11-03 14:37:09 · 901 阅读 · 0 评论 -
Pyecharts html交互可视化
1. Packagefrom pyecharts import options as optsfrom pyecharts.charts import Bar, Line,Pagefrom pyecharts.faker import Faker2. Bar functiondef bar_store() -> Bar: bar = ( Bar() .add_xaxis(year_time) .add_yaxis(原创 2021-11-01 17:50:11 · 387 阅读 · 0 评论 -
Light GBM 实际训练
1. Packageimport loggerimport joblibimport lightgbm as lgbfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import mean_squared_error, mean_absolute_erro2. Regression 指标1.原创 2021-11-01 13:53:39 · 376 阅读 · 0 评论 -
geohash 总结
buffersjoinread_as_json个人工作总结参考文章:原创 2021-10-27 11:19:47 · 579 阅读 · 0 评论