数据分析
文章平均质量分 87
BulletTech2021
微信号BulletTech - 最新最酷的科技分享
展开
-
集成学习小介
机器学习之集成学习原创 2022-02-07 19:17:30 · 979 阅读 · 1 评论 -
ANOVA方差分析
1 前言上回书说到最小样本量的选择更侧重单样本或两样本均值和比率的检验。关于多个样本的均值检验可以另开一篇ANOVA方差分析(Analysis of Variance)来讲。新的一年从扶起去年的flag开始,所以我来填坑啦!开始之前先思考一个问题:已经有了万能又好用的AB test,为什么还需要方差分析呢?答案很简单,在生产环境中,我们感兴趣的因变量通常会受到众多因素的影响。比如新药的有效性受到适应症、剂量、给药途径和方法、每日给药次数等条件的影响,比如商品销量受到广告投放,商品价格,淡旺季等等条件原创 2022-01-06 22:08:17 · 7455 阅读 · 1 评论 -
TensorFlow推荐系统(二)
1 前言读过 TensorFlow推荐系统(一)的朋友们应该还有印象,上回我们介绍的模型是信息检索(retrieval),而在推荐系统中还有另一个任务模型,即为信息排序(ranking)。在排序阶段,其主要任务是对检索模型产出的条目进行调整以选择最有可能被用户喜欢和选择的电影条目。今天,我们将详细介绍一下排序模型的原理和调用实例。2 源码解析 数据准备,获取数据并拆分数据集。 搭建排序模型。 拟合并评估模型。 2.1 数据准备importosimport..原创 2022-01-03 10:53:17 · 1335 阅读 · 0 评论 -
最小样本量n的选择
1 前言读曼昆的经济学原理的时候,印象最深刻的一句话是:People face trade-offs, the cost of something is what you give up to get it. 简单来说就是事物都有成本,每个选择都面临取舍。这句话在生产环境中尤为合适。当研发新药的时候,当金融机构对策略进行分析的时候,当判断系统某个新功能是否有效的时候,在一切需要假设检验的地方,就会面临检验样本量的选择。样本量太小,则检验的可信度不高,没有说服力;样本量太大,则成本过高,不可取。在这种情况原创 2021-12-21 22:48:32 · 2367 阅读 · 0 评论 -
Docker之数据的可持续化
Docker之数据的可持续化管理- Docker Volumes原创 2021-11-29 20:34:38 · 685 阅读 · 0 评论 -
GitHub Action概览
1 前言我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 用GitHub做一份精美的在线简历 在这篇文章里,我们将介绍如何使用GitHub Action,简化重复机械的工作,以大大提高效率、节省时间。2 GitHub Action概览GitHub Action可以自动执行自定义的脚本完成预先设定的工作。用户需要原创 2021-11-13 19:35:59 · 645 阅读 · 0 评论 -
用GitHub做一份精美的在线简历
1 前言我们之前介绍了很多GitHub的酷炫功能,为了方便理解这篇文章的内容,建议阅读之前的文章回顾基本的GitHub操作知识: 一行代码都不写,教你使用GitHub Git常用命令一览 玩转GitHub 在这篇文章里,我们将介绍如何使用GitHub制作在线简历、打造一个所有人都能访问的网站展示自己。2 制作在线简历2.1 下载示例代码本示例采用Bootstrap的模板,请前往BulletTech的官方GitHub账号里找到Resume仓库[1]下载示例代码。原创 2021-11-01 21:22:18 · 582 阅读 · 0 评论 -
浅谈数据的搜索和排序
1. 引言作为一名数据分析师,当然离不开数据结构中的重要概念——搜索和排序。了解各类排序和搜索算法,可以帮助我们在工作中选择排序和搜索方式时,不仅要考虑数据的特点,还要考虑计算资源。接下来,我们就来简单地用Python代码介绍几种数据搜索和数据排序方法。2. Python的代码实现2.1 数据搜索2.1.1 顺序搜索Python列表的特点之一就是每一个元素都有自己的位置,数据项的位置就是它的下标。因为下标是有序的,所以能够有序访问每个元素,由此可以进行顺序搜索。顾名思义,顺序搜索将会原创 2021-10-29 20:37:28 · 408 阅读 · 0 评论 -
实用SQL代码解析工具——sqlparse
1 引言一个数据分析团队往往会积累大量基于SQL的代码,用于日常的报表,模型数据提取,业务决策等等。有时随着公司的发展和技术更替,公司的数据仓库会进行迁移或重构,当表结构,字段名或者表名发生变化时,包含这些表的SQL代码就需要相应地进行改写。人为改写一段段业务代码,尤其是对字段或者表名的修改,往往比较重复而且容易遗漏。懒惰是程序员的第一生产力,既然是重复的工作,那么有没有什么工具可以帮助我们自动化这一过程呢?2 sqlparse开源库2.1 介绍想要改写SQL代码,关键的一步是对SQL进原创 2021-10-25 22:49:16 · 5991 阅读 · 0 评论 -
金融风控特征工程小结
1 前言前一阵子总结了下自己参加的信贷违约风险预测比赛的数据处理和建模的流程,发现自己对业务上的特征工程认识尚浅,凑巧在Kaggle上曾经也有一个金融风控领域——房贷违约风控的比赛,里面有许多大神分享了他们的特征工程方法,细看下来有不少值得参考和借鉴的地方。2 赛题和数据简介这个比赛也是经典的监督学习中的二分类问题,需要我们根据用户的申请信息,征信信息(Bureau)以及用户在该机构的信用历史等信息,预测申请人贷款违约的概率。由于赛题是做贷前预测,所以需要找的特征主要是挖掘客户是否存在欺诈,..原创 2021-10-23 14:35:09 · 369 阅读 · 0 评论 -
SnowFlake权限概览
1 前言在数据库中正确管理对象(如数据库、表等)的权限非常重要,但却又常被人忽视,往往涉及到权限问题、碰到麻烦时,才会后悔当时没有认真对待权限管理。因此这篇文章将以非常火爆的SnowFlake数据仓库为例,简明扼要地讲解权限管理的重要概念和常用命令。建议点赞收藏,日后回顾使用!2 SnowFlake权限控制框架SnowFlake有两种权限控制模型: Discretionary Access Control (DAC),自主访问控制:每一个对象(Object)有一个所有者(Owner),所有原创 2021-10-19 21:59:59 · 453 阅读 · 0 评论 -
浅谈SnowFlake架构
1 前言SnowFlake作为近年来十分火爆的数据仓库应用获得了许多用户和投资人的青睐,本人日常工作中也经常使用SnowFlake做分析,所以对其背后的运行机制做了一些研究,今天和大家聊聊SnowFlake的主要架构和工作原理。SnowFlake股价2 SnowFlake主要特性 安全性和数据保护:SnowFlake支持多种验证方式,如Multi-Factor Authentication (MFA),Federal Authentication,Single Sign-on (SSO原创 2021-09-12 20:33:20 · 1150 阅读 · 0 评论 -
SQL不完全实践指南
1. 引言上回Void同学主要聊了聊他对使用过的数据仓库的体验和测评。与Void"花式干饭"不同,本人在工作中主要接触的是Snowflake,以及在不同的平台里连接Snowflake写SQL,也整理一些初入数据分析常踩的坑,希望可以帮助大家绕过这些问题。2. SQL结构篇2.1 选择合适驱动表进行两表或者多表Join的时候,一般会考虑需求和性能两个方面:业务需求上:选择和结果表粒度相同的表作为驱动表:例如,如果结果表是统计某一天一群目标用户的某个行为指标,一般会选择用一张用户表的快照作为原创 2021-09-11 14:09:07 · 128 阅读 · 0 评论 -
利用递归思想处理半结构化数据
1. 背景在日常数据分析的工作中,我们收集到的原始数据有时并不是整齐的表格形式,例如在爬取网页或者爬取API里的数据时,结果往往是以XML或者JSON(类似Python中的字典)格式返回,并且层层嵌套。就像如下这样的JSON格式:[{'state':'Florida','shortname':'FL','info':{'governor':'RickScott'},'counties':[{'na...原创 2021-08-29 13:00:10 · 268 阅读 · 0 评论 -
天池零基础金融风控比赛小结
1 背景去年九月份参加了天池举办的零基础入门金融风控-贷款违约预测比赛,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的信息预测其是否有违约的可能,以此判断是否通过此项贷款,是一个典型的分类问题。2 数据赛题数据来源于某信贷平台的贷款记录,总数据量为120W,训练集,测试集A,测试集B数据量各位80W,20W,20W。原数据中包含47列变量信息,主要包括:贷款信息(金额,利率,贷款等级等),贷款人信息(就业信息,收入信息,债务比,FICO(一种信用评分),贷款记录等),贷款人行为计数特原创 2021-08-17 21:35:26 · 394 阅读 · 0 评论 -
你与Kaggle大神只差这篇文章
1 引言Kaggle作为最有名的数据科学竞赛平台(没有之一),提供了各种高质量的比赛,也形成了友善、开源的社区氛围。各种大神总是慷慨地分享自己的知识和经验。本文整理了在Kaggle大宝库中所见所得的一些有用的tips。2 TipsChris Deotte是Kaggle社区一位活跃的大神,是Competitions,Datasets,Notebooks,Discussion的全科Grandmaster。在Discussion板块中更是排名世界第一(以讨论帖所得的奖牌数排名)。从他的讨论帖中总是能原创 2021-08-16 21:27:12 · 159 阅读 · 0 评论 -
读《Rules of Machine Learning》有感(下)
1 引言 这篇是《Rules of Machine Learning》 读后感的下篇。主要涉及了具体建模的部分,包括特征工程,分析及优化。2 特征工程 当阶段一的系统搭建完毕后,阶段二要做的是加入尽可能多的有效特征。此时,模型表现的提升是相对容易的。Rule 16: Plan to launch and iterate.做好持续迭代的准备。Rule 17: Start with directly&原创 2021-08-02 21:30:54 · 87 阅读 · 0 评论 -
读《Rules of Machine Learning》有感(上)
读《Rules of Machine Learning》有感(上)1 引言 第一次听到《Rules of Machine Learning》,就被它的题目吓了一跳。是什么样的神仙敢起这样的题目,在这里指点江山?看到作者和来源后,好吧,原来是谷歌的大神。那我们就来看看这篇雄心勃勃的文章能教会我们什么吧。由于文章较长(有3个阶段,43条rule),本文是这一系列的上篇(包含第一阶段)。本文仅基于自己有限的经验与知识,在翻译的基础上加了一些自己的理解,欢迎讨论。2 概述 文章开篇先来了个概述。To原创 2021-07-26 20:36:26 · 83 阅读 · 0 评论 -
双重差分小介
1 引言双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。2 线性回归假设我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:Y=βX+ε Y=\beta X+\varepsilon Y=βX+ε原创 2021-07-25 13:28:32 · 4998 阅读 · 0 评论 -
微信小程序爬虫
Big brother是我们公司的网球王子,他总是使用某微信小程序预定网球场地。然而,热门时间段的场地总是如同变魔术一般在一瞬间被订满。别慌,我们有黑科技。这篇文章将教你使用Python实时监控场地情况,让你在订网球场也内卷的时代占尽先机。1 软件配置Charles是著名的抓包工具,可以抓取移动端与pc端网络访问的所有数据。我们将使用它抓取我们与小程序交互的所有信息。我们可以去官网下载适用于自己系统的Charles安装包安装完成后,很重要的一步是关于证书的配置。以下适用于使用Windows原创 2021-07-25 13:26:58 · 20543 阅读 · 9 评论 -
爬取并下载url不变的pdf文件
1 引言为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。2 具体步骤我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方原创 2021-07-25 13:22:05 · 405 阅读 · 0 评论 -
时间序列异常检测
1 引言事情的起因是有朋友告诉我最近有KDD Cup 2021的比赛。为了凑个热闹,也为了刷点经验,我们准备合伙参加(当个炮灰)。有三道赛题,时间序列异常检测、图相关的和智慧城市。看上去最正常的时间序列异常检测当仁不让的成为了我们的选择。2 题目要求竞赛要求我们检测时间序列中的异常点。每个时间序列有且仅有一个异常点。题目给出了异常点所在的区间,要求我们给出异常点所在的位置。example评估时会考察我们给出的位置前后100个点的范围内是否包含真正的异常点。序列长度从几千到几十万个观原创 2021-07-25 13:19:31 · 1355 阅读 · 1 评论 -
一行代码都不写,教你使用GitHub
目录1 GitHub是什么2 GitHub能做什么2.1 版本管理2.2 协作2.3 建立博客3 GitHub怎么用3.1 创建仓库3.2 GitHub Desktop基本功能1 GitHub是什么在很多人的印象中,GitHub主要是程序员写代码会使用到的工具。事实上,GitHub最主要的特性是版本管理和协同工作,这意味着不仅是程序员,非技术人士也可以使用它更高效地完成很多工作。因此,这篇文章将教大家零基础使用GitHub,帮助大家认识这个强大的效率工具。首先请熟悉G原创 2021-07-25 12:08:15 · 276 阅读 · 0 评论 -
Git常用命令一览
目录1 配置Git2 设置Git仓库3 管理文件变更4 Git提交的相关命令5 Git分支操作6 Git小贴士在一行代码都不写,教你使用GitHub这篇文章中,我们介绍了如何使用GitHub Desktop对GitHub进行操作,图形化的界面对不太熟悉命令的朋友非常友好,但有时候,在代码编辑器或者终端中直接运行命令操作Git更方便,所以这篇文章将介绍一些常用的命令,让你的Git水平更上一层楼。在终端中使用Git1 配置Git首先你需要让Git知道你是谁,所以先设置原创 2021-07-25 11:58:03 · 144 阅读 · 0 评论 -
Python爬虫应用 - PayPal职位抓取
1 前言金三银四刚过去没多久,秋招又即将到来,在忙碌又卷的季节,笔者曾经幻想着能一键抓取心仪公司所有的职位,然后根据自己的强项和求职意愿逐个击破,收获一篮子offer。其实,借助Python就能轻易完成这个目标的第一步,这篇文章将以著名金融科技公司PayPal官网为例,展示Python自动批量抓取职位的小技巧,帮你在求职路上快人一步!注:本文仅用于学习研究Python编程技巧,如果侵权,将立即删除。2 准备工作PayPal招聘官网首先,查看PayPal求职官网的结构,所发布的职.原创 2021-07-25 11:53:31 · 203 阅读 · 0 评论 -
A/B测试实战case分享,面对考官追问也不慌
阅读时间:约10分钟,微信公众号文章链接:点击此处前言:A/B测试是在增长黑客,精细运营理论中常用的数据驱动产品优化的方法。很多同学或多或少了解过A/B测试背后的理论和统计方法,但是没有机会参加实际项目,积累实践经验。我在学习过程中也遇到过类似的困扰,今天想向大家推荐一个可以很好补充项目经验上的空缺,在遇到A/B测试相关问题时可以更从容应对的实战项目:优达学城(Udacity)上的A/B testing by Google(Udacity是一个线上课程平台,有很多高质量的计算机,人工智能,商业分析相原创 2021-07-05 21:21:36 · 308 阅读 · 2 评论 -
两分钟打造淘宝抢单机器人
1 痛点各大电商在一些特定的日子都会开启促销活动,如618、双十一等,有时还得盯着时间抢限量发售的商品,但你的成功率高吗?是否经常会遇到App一直加载,刷新后发现商品被一扫而光了?事实是,很多和你竞争抢购商品的对手比你的手更快更准,因为他们很多都是能精准执行命令的机器人。气不气?没关系这篇文章将手把手教你零基础建设一个自己的机器人,帮你在设定好的时间自动下单,再也不用为抢不到心爱的宝贝烦恼了!2 准备工作在建设机器人之前,请确保你准备好了如下工具: 一台电脑:不需要多快多新,能用就行原创 2021-06-14 09:55:26 · 4476 阅读 · 9 评论