自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 集成学习小介

机器学习之集成学习

2022-02-07 19:17:30 1079 1

原创 ANOVA方差分析

1 前言上回书说到最小样本量的选择更侧重单样本或两样本均值和比率的检验。关于多个样本的均值检验可以另开一篇ANOVA方差分析(Analysis of Variance)来讲。新的一年从扶起去年的flag开始,所以我来填坑啦!开始之前先思考一个问题:已经有了万能又好用的AB test,为什么还需要方差分析呢?答案很简单,在生产环境中,我们感兴趣的因变量通常会受到众多因素的影响。比如新药的有效性受到适应症、剂量、给药途径和方法、每日给药次数等条件的影响,比如商品销量受到广告投放,商品价格,淡旺季等等条件

2022-01-06 22:08:17 7903 1

原创 TensorFlow推荐系统(二)

1 前言读过 TensorFlow推荐系统(一)的朋友们应该还有印象,上回我们介绍的模型是信息检索(retrieval),而在推荐系统中还有另一个任务模型,即为信息排序(ranking)。在排序阶段,其主要任务是对检索模型产出的条目进行调整以选择最有可能被用户喜欢和选择的电影条目。今天,我们将详细介绍一下排序模型的原理和调用实例。2 源码解析 数据准备,获取数据并拆分数据集。 搭建排序模型。 拟合并评估模型。 2.1 数据准备importosimport..

2022-01-03 10:53:17 1431

原创 最小样本量n的选择

1 前言读曼昆的经济学原理的时候,印象最深刻的一句话是:People face trade-offs, the cost of something is what you give up to get it. 简单来说就是事物都有成本,每个选择都面临取舍。这句话在生产环境中尤为合适。当研发新药的时候,当金融机构对策略进行分析的时候,当判断系统某个新功能是否有效的时候,在一切需要假设检验的地方,就会面临检验样本量的选择。样本量太小,则检验的可信度不高,没有说服力;样本量太大,则成本过高,不可取。在这种情况

2021-12-21 22:48:32 2744

原创 TensorFlow推荐系统(一)

TensorFlow Recommender ——介绍电影推荐原理及解析源码。

2021-12-14 22:00:27 2582

原创 Python爬虫获取租房数据

1 前言租房/有房要出租的小伙伴们看过来~本文介绍如何用Python爬取上海链家租房数据。此次侧重XPath的使用和反爬虫小技巧。XPath是用路径表达式在XML文档中选取节点,这里也同样适用于HTML文档的搜索。

2021-12-06 21:17:52 5539 4

原创 Docker之数据的可持续化

Docker之数据的可持续化管理- Docker Volumes

2021-11-29 20:34:38 750

原创 有趣API介绍1.0

给大家介绍两个沙雕又有趣的API随机生成土味情话和活动推荐。

2021-11-28 11:03:08 989

原创 使用GitHub Action自动构建和推送Docker镜像

1 前言在这篇文章里,我们将介绍如何使用GitHub Action自动推送Docker镜像到镜像仓库,大大简化构建镜像、推送镜像的繁琐步骤!我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识,特别是GitHub Action: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 用GitHub做一份精美的在线简历 GitHub Action概览 同时,如果需要理解

2021-11-20 19:38:39 2288

原创 教你成功在Win10系统中运行docker

1 前言在上文Docker初体验中我们介绍了Docker的一些基本概念和常用命令,但因为Docker是在Linux系统下创建的资源分离机制,所以它无法在Windows系统下直接运行。这次我们将用3分钟的时间介绍一下如何在Win10系统下运行Docker。2 下载Docker用户可以根据自己的系统在Docker官网选择Mac[1]或Windows[2],因为Docker可以在Mac系统中安装后可以直接运行,这里就不再赘述。安装完Docker,并注册个人账号,再双击启动它,你会发现并不像你想的那

2021-11-15 21:07:20 6158 1

原创 GitHub Action概览

1 前言我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 用GitHub做一份精美的在线简历 在这篇文章里,我们将介绍如何使用GitHub Action,简化重复机械的工作,以大大提高效率、节省时间。2 GitHub Action概览GitHub Action可以自动执行自定义的脚本完成预先设定的工作。用户需要

2021-11-13 19:35:59 717

原创 深度学习 101-搭建 ResNet 识别鲜花图像

1 前言ResNet 是一种经典的图像识别领域模型,在 2015 年图像识别领域多个竞赛中排行第一,并且性能上相较第二有大幅提升。在这篇文章里,我们就站在巨人们的肩膀上,搭建一个基于 ResNet 识别花卉图片(Oxford 102 Flowers)的神经网络吧。2 ResNet 简介在 ResNet 以前,由于存在梯度消失和梯度爆炸的问题,神经网路层数越深,网络越难以训练,导致深层网络的准确度出现下降。ResNet 通过引入残差块(Residual block),将 a[l]添加到第二个

2021-11-13 17:44:14 4681 2

原创 Docker初体验

1. 前言因为作者之前并没有太多产品开发和部署的经验,所以初入团队时,确实花了一段时间学习Docker概念和应用。那么今天就跟大家分享一下如何从零到一地打开Docker的大门吧。2. Docker的基本概念Docker是一个开放源代码的软件,程序员用Python、Java等面向对象的语言能够设计出产品,为什么还要使用它呢?这是因为我们在开发时需要很多特定的包和配置文件去搭建环境,如果用户想要在不同的系统环境去调用它,是一件很费时费力的事情。那么这个时候Docker就派上用场了。Docker可以帮

2021-11-06 21:18:30 234

原创 用GitHub做一份精美的在线简历

1 前言我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 在这篇文章里,我们将介绍如何使用GitHub制作在线简历、打造一个所有人都能访问的网站展示自己。2 制作在线简历2.1 下载示例代码本示例采用Bootstrap的模板,请前往BulletTech的官方GitHub账号里找到Resume仓库[1]下载示例代码。

2021-11-01 21:22:18 714

原创 浅谈数据的搜索和排序

1. 引言作为一名数据分析师,当然离不开数据结构中的重要概念——搜索和排序。了解各类排序和搜索算法,可以帮助我们在工作中选择排序和搜索方式时,不仅要考虑数据的特点,还要考虑计算资源。接下来,我们就来简单地用Python代码介绍几种数据搜索和数据排序方法。2. Python的代码实现2.1 数据搜索2.1.1 顺序搜索Python列表的特点之一就是每一个元素都有自己的位置,数据项的位置就是它的下标。因为下标是有序的,所以能够有序访问每个元素,由此可以进行顺序搜索。顾名思义,顺序搜索将会

2021-10-29 20:37:28 521

原创 实用SQL代码解析工具——sqlparse

1 引言一个数据分析团队往往会积累大量基于SQL的代码,用于日常的报表,模型数据提取,业务决策等等。有时随着公司的发展和技术更替,公司的数据仓库会进行迁移或重构,当表结构,字段名或者表名发生变化时,包含这些表的SQL代码就需要相应地进行改写。人为改写一段段业务代码,尤其是对字段或者表名的修改,往往比较重复而且容易遗漏。懒惰是程序员的第一生产力,既然是重复的工作,那么有没有什么工具可以帮助我们自动化这一过程呢?2 sqlparse开源库2.1 介绍想要改写SQL代码,关键的一步是对SQL进

2021-10-25 22:49:16 6474

原创 金融风控特征工程小结

1 前言前一阵子总结了下自己参加的信贷违约风险预测比赛的数据处理和建模的流程,发现自己对业务上的特征工程认识尚浅,凑巧在Kaggle上曾经也有一个金融风控领域——房贷违约风控的比赛,里面有许多大神分享了他们的特征工程方法,细看下来有不少值得参考和借鉴的地方。2 赛题和数据简介这个比赛也是经典的监督学习中的二分类问题,需要我们根据用户的申请信息,征信信息(Bureau)以及用户在该机构的信用历史等信息,预测申请人贷款违约的概率。由于赛题是做贷前预测,所以需要找的特征主要是挖掘客户是否存在欺诈,..

2021-10-23 14:35:09 515

原创 SnowFlake权限概览

1 前言在数据库中正确管理对象(如数据库、表等)的权限非常重要,但却又常被人忽视,往往涉及到权限问题、碰到麻烦时,才会后悔当时没有认真对待权限管理。因此这篇文章将以非常火爆的SnowFlake数据仓库为例,简明扼要地讲解权限管理的重要概念和常用命令。建议点赞收藏,日后回顾使用!2 SnowFlake权限控制框架SnowFlake有两种权限控制模型: Discretionary Access Control (DAC),自主访问控制:每一个对象(Object)有一个所有者(Owner),所有

2021-10-19 21:59:59 682

原创 在Apple Silicon Macs上安装TensorFlow

1 前言M1 Mac mini 使用半年体验 - Mac的新未来这篇文章提到了Apple Silicon Mac的出色表现,但兼容性问题对于普通用户而言仍然不容忽视,其中,安装TensorFlow就不像在Intel Macs上用一句pip install tensorflow这么简单。但众多开发者和Apple自己都在为Apple Silicon Macs的优化工作不断努力,现在安装TensorFlow已经容易很多了。这篇文章会分享在Apple Silicon Macs上安装TensorFlow的推荐方法

2021-10-10 14:37:09 391

原创 使用tf.keras自定义模型

1 前言tf.keras提供了许多方便调用的API构建深度学习模型,但有些情况需要自定义层和模型,因此在这篇文章里,我们将着眼自定义模型,使用TensorFlow 2.X里的自定义方法为解决方案提供更多灵活性。2 自定义层2.1 创建没有权重的层当自定义层无需权重时,使用tf.keras.layers.Lambda会非常方便,示例如下:exponential_layer=keras.layers.Lambda(lambdax:tf.exp(x))然后这个自定义层可以像其他...

2021-10-07 10:55:51 1034

原创 Keras各种Callbacks介绍

1 前言在tensorflow.keras中,callbacks能在fit、evaluate和predict过程中加入伴随着模型的生命周期运行,目前tensorflow.keras已经构建了许多种callbacks供用户使用,用于防止过拟合、可视化训练过程、纠错、保存模型checkpoints和生成TensorBoard等。通过这篇文章,我们来了解一下如何使用tensorflow.keras里的各种callbacks,以及如何自定义callbacks。2 使用callbacks使用callbac

2021-10-04 17:42:25 1638

原创 浅谈SnowFlake架构

1 前言SnowFlake作为近年来十分火爆的数据仓库应用获得了许多用户和投资人的青睐,本人日常工作中也经常使用SnowFlake做分析,所以对其背后的运行机制做了一些研究,今天和大家聊聊SnowFlake的主要架构和工作原理。SnowFlake股价2 SnowFlake主要特性 安全性和数据保护:SnowFlake支持多种验证方式,如Multi-Factor Authentication (MFA),Federal Authentication,Single Sign-on (SSO

2021-09-12 20:33:20 1358

原创 SQL不完全实践指南

1. 引言上回Void同学主要聊了聊他对使用过的数据仓库的体验和测评。与Void"花式干饭"不同,本人在工作中主要接触的是Snowflake,以及在不同的平台里连接Snowflake写SQL,也整理一些初入数据分析常踩的坑,希望可以帮助大家绕过这些问题。2. SQL结构篇2.1 选择合适驱动表进行两表或者多表Join的时候,一般会考虑需求和性能两个方面:业务需求上:选择和结果表粒度相同的表作为驱动表:例如,如果结果表是统计某一天一群目标用户的某个行为指标,一般会选择用一张用户表的快照作为

2021-09-11 14:09:07 207

原创 决策树学习笔记

1 前言决策树是非常经典的机器学习模型,日常工作中许多分类和回归问题都可以用决策树解决,很多更高级、先进的机器学习模型也基于决策树构建,为了夯实基础、正确运用决策树,今天我们来回顾一些决策树里最重要的技术细节。鸢尾花品种分类决策树示例2 算法重要细节2.1 如何做预测示例中深度为2的决策树的展示了做决策的过程和结论,对于150个样本点,在根节点上,决策树以花瓣长度(petal length)是否小于2.45厘米将数据分成两部分,花瓣长度小于2.45厘米的样本被分类成setosa,大于

2021-09-03 21:14:33 269

原创 利用递归思想处理半结构化数据

1. 背景在日常数据分析的工作中,我们收集到的原始数据有时并不是整齐的表格形式,例如在爬取网页或者爬取API里的数据时,结果往往是以XML或者JSON(类似Python中的字典)格式返回,并且层层嵌套。就像如下这样的JSON格式:[{'state':'Florida','shortname':'FL','info':{'governor':'RickScott'},'counties':[{'na...

2021-08-29 13:00:10 330

原创 Python字典常用操作小技巧

1 前言在上一篇文章中,我们回顾了Python列表的常用操作,列表作为一种常用的数据类型在日常工作中扮演了非常重要的作用,这篇文章我们继续聊聊Python里另一种常用的数据类型 - 字典(Dict)。定义字典可以使用dict()方法,或者使用花括号name2code = {'Tony':1, 'Kevin':2, 'Luis':3},如果想要增加元素,可以使用键值对的赋值模式:name2code['Nick'] = 0。很容易看出,不同于列表,字典并不以整数作为下标。接下来我们来看看字典常用的方法。

2021-08-22 17:17:23 208

原创 天池零基础金融风控比赛小结

1 背景去年九月份参加了天池举办的零基础入门金融风控-贷款违约预测比赛,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的信息预测其是否有违约的可能,以此判断是否通过此项贷款,是一个典型的分类问题。2 数据赛题数据来源于某信贷平台的贷款记录,总数据量为120W,训练集,测试集A,测试集B数据量各位80W,20W,20W。原数据中包含47列变量信息,主要包括:贷款信息(金额,利率,贷款等级等),贷款人信息(就业信息,收入信息,债务比,FICO(一种信用评分),贷款记录等),贷款人行为计数特

2021-08-17 21:35:26 471

原创 你与Kaggle大神只差这篇文章

1 引言Kaggle作为最有名的数据科学竞赛平台(没有之一),提供了各种高质量的比赛,也形成了友善、开源的社区氛围。各种大神总是慷慨地分享自己的知识和经验。本文整理了在Kaggle大宝库中所见所得的一些有用的tips。2 TipsChris Deotte是Kaggle社区一位活跃的大神,是Competitions,Datasets,Notebooks,Discussion的全科Grandmaster。在Discussion板块中更是排名世界第一(以讨论帖所得的奖牌数排名)。从他的讨论帖中总是能

2021-08-16 21:27:12 234

原创 Python列表常用操作小技巧

1 前言在上一篇文章中,我们回顾了Python元组的常用操作,这篇文章我们继续聊聊Python里另一种常用的数据类型 - 列表(List)。和元组一样,列表也是一种序列,通过方括号[和]即可创建。列表中的值常被称为元素,元素的数据类型可以不同,如test_list = [0,1,1,'a','b']就能成功创建一个列表。不同于元组,列表是可变序列,因此序列可用的操作会更加灵活,接下来我们来回顾列表最常用的操作。2 列表常用操作2.1 遍历列表以列表people = ['Adam','

2021-08-16 19:58:23 127

原创 Python元组常用操作小技巧

1 前言Python作为当下数据科学、人工智能领域炙手可热的编程语言受到了非常多的关注,有很多人都在学习。但是在追求卓越的路上,一定不要忽视了基础,比如常用数据结构、语法规范、编程思维的最佳实践,对这些最基础的事情了如指掌,在这基础之上的工作也会游刃有余。我们先来回顾和总结Python数据结构里常用操作。Python中常见的数据结构可以统称为容器(container)。序列(如列表和元组)、映射(如字典)以及集合(set)是三类主要的容器。而扁平序列如str、bytes、bytearray、memo

2021-08-09 20:31:42 254

原创 浅谈Google Analytics

1 前言现今互联网上的很多产品、战略决策都由数据驱动,以BulletTech为例,在运营微信公众号时,通过后台数据我们对每篇文章都会进行流量来源、裂变和阅读完关注等重要指标的监控,这些数据能够帮助我们分析读者的偏好、流量渠道的优劣,从而灵活地调整文章主题和宣传策略。对于已经有良好数据分析基础设施的平台,现成的解决方案能省去决策者很多时间,但如果自己从头建了一个产品,如何构建数据分析的基础设施和策略呢?这篇文章将以BulletTech的博客为例,向大家介绍如何使用Google Analytics(GA)分

2021-08-07 11:23:03 681

原创 告别面向Google编程,Copilot测试版本体验

最近OpenAI和GitHub联合发布了一个名为Copilot代码生成工具。这个工具基于GPT-3自然语言处理模型开发,并使用GitHub上的数十亿行代码作为训练数据,实现在写代码时自动提供代码建议的功能。目前该产品已经在Vscode extenison中上线。作为长期面向Google编程的小白,当然是偷懒等不了明天,早早在官网排队等待试用名额,幸运地在一两周前获得了试用机会。一周的体验下来,我认为Copilot的功能相较于其他代码补齐工具而言更加强大,更加灵活,甚至有时让我有种仿佛Copilo..

2021-08-04 23:12:11 1077

原创 读《Rules of Machine Learning》有感(下)

1 引言 这篇是《Rules of Machine Learning》 读后感的下篇。主要涉及了具体建模的部分,包括特征工程,分析及优化。2 特征工程 当阶段一的系统搭建完毕后,阶段二要做的是加入尽可能多的有效特征。此时,模型表现的提升是相对容易的。Rule 16: Plan to launch and iterate.做好持续迭代的准备。Rule 17: Start with directly&

2021-08-02 21:30:54 135

原创 读《Rules of Machine Learning》有感(上)

读《Rules of Machine Learning》有感(上)1 引言 第一次听到《Rules of Machine Learning》,就被它的题目吓了一跳。是什么样的神仙敢起这样的题目,在这里指点江山?看到作者和来源后,好吧,原来是谷歌的大神。那我们就来看看这篇雄心勃勃的文章能教会我们什么吧。由于文章较长(有3个阶段,43条rule),本文是这一系列的上篇(包含第一阶段)。本文仅基于自己有限的经验与知识,在翻译的基础上加了一些自己的理解,欢迎讨论。2 概述 文章开篇先来了个概述。To

2021-07-26 20:36:26 124

原创 双重差分小介

1 引言双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。2 线性回归假设我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:Y=βX+ε Y=\beta X+\varepsilon Y=βX+ε

2021-07-25 13:28:32 5271

原创 微信小程序爬虫

Big brother是我们公司的网球王子,他总是使用某微信小程序预定网球场地。然而,热门时间段的场地总是如同变魔术一般在一瞬间被订满。别慌,我们有黑科技。这篇文章将教你使用Python实时监控场地情况,让你在订网球场也内卷的时代占尽先机。1 软件配置Charles是著名的抓包工具,可以抓取移动端与pc端网络访问的所有数据。我们将使用它抓取我们与小程序交互的所有信息。我们可以去官网下载适用于自己系统的Charles安装包安装完成后,很重要的一步是关于证书的配置。以下适用于使用Windows

2021-07-25 13:26:58 21482 9

原创 爬取并下载url不变的pdf文件

1 引言为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。2 具体步骤我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方

2021-07-25 13:22:05 493

原创 时间序列异常检测

1 引言事情的起因是有朋友告诉我最近有KDD Cup 2021的比赛。为了凑个热闹,也为了刷点经验,我们准备合伙参加(当个炮灰)。有三道赛题,时间序列异常检测、图相关的和智慧城市。看上去最正常的时间序列异常检测当仁不让的成为了我们的选择。2 题目要求竞赛要求我们检测时间序列中的异常点。每个时间序列有且仅有一个异常点。题目给出了异常点所在的区间,要求我们给出异常点所在的位置。example评估时会考察我们给出的位置前后100个点的范围内是否包含真正的异常点。序列长度从几千到几十万个观

2021-07-25 13:19:31 1623 1

原创 如何以最快的速度写出一篇优美的文章

目录1 前言2 工作流2.1 构思主题,完成写作任务排期2.1 创建不包含任何格式的Markdown文本2.3 渲染Markdown文本,发布文章2.4 跟踪阅读数据,逐步调优3 总结参考资料1 前言对于一个需要在多平台快速发布文字内容的团队来说,提高写字、排版的效率至关重要。我们为了找到效率最高的办法,查阅了很多资料,测试了很多工具,最终组建了一套行之有效、省时省力的办法,这篇文章将会详细介绍BulletTech发布文章的工作流,帮助大家理解如何以最快的速度..

2021-07-25 12:11:32 218

原创 一行代码都不写,教你使用GitHub

目录1 GitHub是什么2 GitHub能做什么2.1 版本管理2.2 协作2.3 建立博客3 GitHub怎么用3.1 创建仓库3.2 GitHub Desktop基本功能1 GitHub是什么在很多人的印象中,GitHub主要是程序员写代码会使用到的工具。事实上,GitHub最主要的特性是版本管理和协同工作,这意味着不仅是程序员,非技术人士也可以使用它更高效地完成很多工作。因此,这篇文章将教大家零基础使用GitHub,帮助大家认识这个强大的效率工具。首先请熟悉G

2021-07-25 12:08:15 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除