自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 【用pyecharts做地理图】(airbnb租房数据分析)(天池竞赛)

项目介绍项目来源:天池大数据平台项目思路:针对airbnb中listings表做数据处理,探索分析以及针对经纬度以及价格做地理价格图(pyecharts)python:3.7.1pyecharts:1.2.0模块导入#数据处理包导入import pandas as pdimport numpy as npfrom scipy import stats#画图包导入import...

2020-04-08 00:40:46 1697 2

原创 工作整理-审核数据抽取-脚本撰写过程

文章目录前言一、需求整理需求分析脚本步骤设计二、路径以及时间设置模块导入路径设置时间设置三、数据提取hive数据提取mongo数据提取数据整合四、跑时长五、数据随机抽取六、数据分表数据验证总结前言领导要我整一个提高审核人员审核效率的小东西来源于一个简单的excel表,审核数据表针对于该表而言:审核leader的每日繁琐工作有:1.每天都要把我给他们的数据按照人员做一下拆分,有几个人拆成几个表2.每天都要在分表里做一下数据验证,也就是那个下拉序列然后可以选的东东3.需要把做完审核的分表按照业

2021-03-03 16:30:55 1312 2

原创 工作整理-用户画像以及风险得分的应用

文章目录前言一、风险用户识别原理二、步骤以及代码展示1.用户抽取2.用户数据基本处理3.特征工程建立4.模型与评分卡建立总结前言记一次薅羊毛用户风险评判的机制以及其应用借用模型为风控贷前评分卡根据iv,woe值计算区块得分系数以及输出card用以适配不同业务场景所有敏感信息已做脱敏处理。一、风险用户识别原理总有一些用户是想要通过某些作弊手法获取不正当利益的,关于获取方式这里不做披露,只分析如何通过用户行为甄别用户的风险得分以判断是否为高风险用户二、步骤以及代码展示1.用户抽取本人是j

2021-03-03 14:45:47 1553

原创 从小白入门的服务器jupyterlab部署攻略

本文来自于一次个人躺坑以及整合的记录欢迎来到我的博客本人环境配置部署需要lab3的好处下载和安装配置启动欢迎来到我的博客本人环境配置CentOS Linux release 7.8.2003 (Core)conda 4.9.2Python 3.7.6部署需要由于一直用jupyter notebook,但是毕竟lab3出来了,要更新换代的嘛,lab的功能虽然没有全部继承但也是很省效率的,特别是插件更灵活了,主要是因为这点换的lablab3的好处1.相对于lab2,lab3的好处自然是大部分

2021-02-19 17:43:15 1168

原创 【整理向】老板让我用SPSS做A/Btest,我偏要用python

老板:小果子我:老板您说老板:那个,这个页面中间按钮我们换了个颜色,你用斯罢斯验证一下点击率呗我:…好的,老板的发音还是那么清新脱俗老板:怎么样,我昨天专门练的,厉害吧我:numpy!numpy!(npnp:牛皮牛皮)我,数据之果,身为一名专业的数据分析师我们当然要体现出我们的专业水平,打开我的斯噗斯斯!准备窗口!哼!一个小小的A/B test做出来只需要分分…(SPSS过期了…)怎么办,新公司电脑新安装的斯噗斯斯过期了,机智的我赶紧到网上搜索破解程序,一打开…西巴shake it啊盗

2020-06-09 11:13:28 588

原创 基于用户周期分析与RFM分层的英国电商数据分析

项目描述:我们用到的这个数据是英国在线零售数据。这个数据里涵盖了从2010年12月1号到2011年12月9号期间在英国注册的在线零售店发生的所有交易。该公司主要销售一些通用的节日礼品。该公司的许多客户都是批发商项目数据来源:kaggle数据字段:InvoiceNo: 发票编号。6位整数。如果代码以字母“c”开头,则表示是一个退货订单StockCode: 商品代码。为每个不同的产品唯一分配...

2020-05-05 23:08:15 784

原创 (逻辑回归)电信用户流失分析与预测

项目说明:from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot a...

2020-04-23 07:34:31 5437 2

原创 批量爬出百度搜索词的url(多词多url)

项目描述:流量规则变动,需要启动百度SEM影像中的行业定投模块,由于收集url速度过慢不好统计数据,所以看这个看那个的写了个怕url的小代码,之后会贴上文本分析的内容,待更新~使用语言:python3.7# -*- coding:utf-8 -*-'''从百度把前n页的搜索到的url(自然结果)爬取保存'''from bs4 import BeautifulSoup # 处...

2020-04-23 00:57:20 947

原创 (kaggle)Video Game Sales电子游戏销售分析

模块导入from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as...

2020-04-11 20:41:35 5968 23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除