自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Human Resources Analytics -- Kaggle Dataset

1 IntroductonThe Human Resources Analytics is a simulated dataset and the focus is to understand why the best and most experienced employees is leaving the company. We will explore the fact why emplo...

2019-03-04 17:13:18 1160

原创 游戏付费金额 —— 基于DC游戏数据(Brutal Age)

背景“《野蛮时代》(Brutal Age)是一款风靡全球的SLG类型手机游戏。根据App Annie统计,《野蛮时代》在12个国家取得游戏畅销榜第1,在82个国家取得游戏畅销榜前10。准确了解每个玩家的价值,对游戏的广告投放策略和高效的运营活动(如精准的促销活动和礼包推荐)具有重要意义,有助于给玩家带来更个性化的体验。因此,我们希望能在玩家进入游戏的前期就对于他们的价值进行准确的估算。在这个竞...

2019-01-30 17:05:25 2638 8

原创 python爬虫之七 —— 链家二手房

前言最近用爬虫在链家网上转了转,获取了成都所有二手房的数据(普通住宅,不含公寓、别墅等),一共5万多条,在爬数据的过程中发现了一些需要注意的问题:每一组筛选条件最多只能显示100页(每页30条,一次筛选最多3000条),需要拆分筛选项来获取一个城市的所有数据,我选择按地域拆分,其它方式也可以只有中心城区的二手房数据,稍远一点的区县基本没有或被归入临近的地区(看来链家的业务收缩在了中心区域)...

2019-01-18 15:30:53 1072 3

原创 成都二手房长啥样 —— 基于链家数据

下面的分析的源数据是从链家网上抓取的成都二手房数据,截至时间2019年1月16日。目的也简单,一个想买房的人关注一下所在城市的房价情况。需要注意的问题:只含普通住房, 不含公寓、别墅链家网上只有成都一、二圈层的二手房信息(缺乏三圈层的数据),共52548条不同区域下面有重复的商圈,抓取数据时注意去重和商圈的正确归属商圈直接划分错误,比如犀浦归到了新都一些较远的区县归属到了相邻的区域内...

2019-01-17 20:14:46 2099

原创 Elo顾客忠诚度 —— kaggle数据

前言这个项目来自Kaggle,是Elo(巴西最大的本土支付品牌之一)和Kaggle合作的比赛,通过Elo的匿名数据集预测每个客户的忠诚度(具体到card_id),以及查找影响客户忠诚度的因素。这个是数据集是虚构的(官方是这么说的),而且部分变量都经过匿名处理,并不清楚具体何意(保密工作相当到位)。整个数据集包含以下的数据,historical_transactions: 每个card_id...

2019-01-10 17:56:44 3537 6

原创 python爬虫之六 —— selenium和BOSS直聘

主要逻辑打开首页搜索关键字,进入第一页2.1 获取详情页url2.2 进入详情页抓取数据翻页,重复第二步详细代码from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom bs4 import BeautifulSoup as bsimport timeclass ...

2019-01-09 09:36:21 962 1

原创 python爬虫之五 ——拉勾网数据

详细代码import requestsimport jsonimport mathimport timefrom fake_useragent import UserAgentimport pymongo#from proxy_ip import get_one_proxy_ipclass LaGou: def __init__(self): self....

2019-01-06 19:24:32 644 3

原创 信用评分卡模型 —— 基于Lending Club数据

1、前言Lending Club是全球最大的撮合借款人和投资人的线上金融平台,它利用互联网模式建立了一种比传统银行系统更有效率的、能够在借款人和投资人之间自由配置资本的机制。本次分析的源数据基于Lending Club 2017年全年和2018年一二季度的公开数据,目的是建立一个贷前评分卡。数据原址:https://www.lendingclub.com/info/download-data.a...

2019-01-03 18:01:02 17230 36

原创 python爬虫之四 —— selenium和京东商品

前言如果说爬虫是模拟浏览器向服务器发送请求,获取数据,那么有了selenium之后,我们可以操控浏览器自动帮我们抓取数据。关于selenium在python中的使用,可以参考Selenium Documentation和Selenium with Python中文翻译文档。步骤这次以京东为例,获取京东的商品列表数据。步骤如下打开首页搜索关键字,进入第一页网页下拉获取网页源码,解析网...

2019-01-02 16:29:43 665

原创 python爬虫之一 —— 爱斗图图包抓取

python爬虫之一 —— 爱斗图图包抓取前言最近有点空闲时间,又开始研究python的爬虫,事实上这几天已经写了好几个爬虫,也尝试了用pyspider爬取网页,慢慢积累,今天和大家分享一个表情包爬虫。相信大家都喜欢斗图,今天这个爬虫就是爬取爱斗图网站的图包,资源丰富,内容很多:步骤这个网站主要是静态网页,结构并不复杂,我们的操作步骤如下:发送请求,接收响应;解析第一页,获取详情...

2018-12-27 15:50:01 574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除