Coding
文章平均质量分 83
BulletTech2021
微信号BulletTech - 最新最酷的科技分享
展开
-
使用GitHub Action自动构建和推送Docker镜像
1 前言在这篇文章里,我们将介绍如何使用GitHub Action自动推送Docker镜像到镜像仓库,大大简化构建镜像、推送镜像的繁琐步骤!我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识,特别是GitHub Action: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 用GitHub做一份精美的在线简历 GitHub Action概览 同时,如果需要理解原创 2021-11-20 19:38:39 · 2108 阅读 · 0 评论 -
教你成功在Win10系统中运行docker
1 前言在上文Docker初体验中我们介绍了Docker的一些基本概念和常用命令,但因为Docker是在Linux系统下创建的资源分离机制,所以它无法在Windows系统下直接运行。这次我们将用3分钟的时间介绍一下如何在Win10系统下运行Docker。2 下载Docker用户可以根据自己的系统在Docker官网选择Mac[1]或Windows[2],因为Docker可以在Mac系统中安装后可以直接运行,这里就不再赘述。安装完Docker,并注册个人账号,再双击启动它,你会发现并不像你想的那原创 2021-11-15 21:07:20 · 5882 阅读 · 1 评论 -
用GitHub做一份精美的在线简历
1 前言我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 在这篇文章里,我们将介绍如何使用GitHub制作在线简历、打造一个所有人都能访问的网站展示自己。2 制作在线简历2.1 下载示例代码本示例采用Bootstrap的模板,请前往BulletTech的官方GitHub账号里找到Resume仓库[1]下载示例代码。原创 2021-11-01 21:22:18 · 582 阅读 · 0 评论 -
实用SQL代码解析工具——sqlparse
1 引言一个数据分析团队往往会积累大量基于SQL的代码,用于日常的报表,模型数据提取,业务决策等等。有时随着公司的发展和技术更替,公司的数据仓库会进行迁移或重构,当表结构,字段名或者表名发生变化时,包含这些表的SQL代码就需要相应地进行改写。人为改写一段段业务代码,尤其是对字段或者表名的修改,往往比较重复而且容易遗漏。懒惰是程序员的第一生产力,既然是重复的工作,那么有没有什么工具可以帮助我们自动化这一过程呢?2 sqlparse开源库2.1 介绍想要改写SQL代码,关键的一步是对SQL进原创 2021-10-25 22:49:16 · 5991 阅读 · 0 评论 -
金融风控特征工程小结
1 前言前一阵子总结了下自己参加的信贷违约风险预测比赛的数据处理和建模的流程,发现自己对业务上的特征工程认识尚浅,凑巧在Kaggle上曾经也有一个金融风控领域——房贷违约风控的比赛,里面有许多大神分享了他们的特征工程方法,细看下来有不少值得参考和借鉴的地方。2 赛题和数据简介这个比赛也是经典的监督学习中的二分类问题,需要我们根据用户的申请信息,征信信息(Bureau)以及用户在该机构的信用历史等信息,预测申请人贷款违约的概率。由于赛题是做贷前预测,所以需要找的特征主要是挖掘客户是否存在欺诈,..原创 2021-10-23 14:35:09 · 369 阅读 · 0 评论 -
SQL不完全实践指南
1. 引言上回Void同学主要聊了聊他对使用过的数据仓库的体验和测评。与Void"花式干饭"不同,本人在工作中主要接触的是Snowflake,以及在不同的平台里连接Snowflake写SQL,也整理一些初入数据分析常踩的坑,希望可以帮助大家绕过这些问题。2. SQL结构篇2.1 选择合适驱动表进行两表或者多表Join的时候,一般会考虑需求和性能两个方面:业务需求上:选择和结果表粒度相同的表作为驱动表:例如,如果结果表是统计某一天一群目标用户的某个行为指标,一般会选择用一张用户表的快照作为原创 2021-09-11 14:09:07 · 128 阅读 · 0 评论 -
利用递归思想处理半结构化数据
1. 背景在日常数据分析的工作中,我们收集到的原始数据有时并不是整齐的表格形式,例如在爬取网页或者爬取API里的数据时,结果往往是以XML或者JSON(类似Python中的字典)格式返回,并且层层嵌套。就像如下这样的JSON格式:[{'state':'Florida','shortname':'FL','info':{'governor':'RickScott'},'counties':[{'na...原创 2021-08-29 13:00:10 · 268 阅读 · 0 评论 -
Python字典常用操作小技巧
1 前言在上一篇文章中,我们回顾了Python列表的常用操作,列表作为一种常用的数据类型在日常工作中扮演了非常重要的作用,这篇文章我们继续聊聊Python里另一种常用的数据类型 - 字典(Dict)。定义字典可以使用dict()方法,或者使用花括号name2code = {'Tony':1, 'Kevin':2, 'Luis':3},如果想要增加元素,可以使用键值对的赋值模式:name2code['Nick'] = 0。很容易看出,不同于列表,字典并不以整数作为下标。接下来我们来看看字典常用的方法。原创 2021-08-22 17:17:23 · 153 阅读 · 0 评论 -
Python列表常用操作小技巧
1 前言在上一篇文章中,我们回顾了Python元组的常用操作,这篇文章我们继续聊聊Python里另一种常用的数据类型 - 列表(List)。和元组一样,列表也是一种序列,通过方括号[和]即可创建。列表中的值常被称为元素,元素的数据类型可以不同,如test_list = [0,1,1,'a','b']就能成功创建一个列表。不同于元组,列表是可变序列,因此序列可用的操作会更加灵活,接下来我们来回顾列表最常用的操作。2 列表常用操作2.1 遍历列表以列表people = ['Adam','原创 2021-08-16 19:58:23 · 78 阅读 · 0 评论 -
Python元组常用操作小技巧
1 前言Python作为当下数据科学、人工智能领域炙手可热的编程语言受到了非常多的关注,有很多人都在学习。但是在追求卓越的路上,一定不要忽视了基础,比如常用数据结构、语法规范、编程思维的最佳实践,对这些最基础的事情了如指掌,在这基础之上的工作也会游刃有余。我们先来回顾和总结Python数据结构里常用操作。Python中常见的数据结构可以统称为容器(container)。序列(如列表和元组)、映射(如字典)以及集合(set)是三类主要的容器。而扁平序列如str、bytes、bytearray、memo原创 2021-08-09 20:31:42 · 184 阅读 · 0 评论