自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【新手向】爬取链家二手房信息并可视化

爬取链家二手房信息步骤定义一个url,程序向指定网站发送网络请求接收网站响应并解析响应结果response html根据需求筛选网站响应结果将筛选之后得到的数据保存本地存储代码import requestsimport pandas as pdfrom lxml import etree from pyecharts.charts import Barurl = 'https://cs.lianjia.com/ershoufang/'response = requests.ge

2020-10-26 21:41:06 2343

原创 SQL面试必考——null的统计

题目如下:再用count进行统计时,若使用count(*)或者count(1),不会忽略任何值,则相当于统计行数。count(列名)则统计具体的列,会忽略null值。如count(score)只会统计不为null的个数,而count(id)因为默认无null值,所以相当于统计所有行。avg(score) = sum(score)/count(score) 会忽略null值。因此,ADCE相同,DF相同。...

2020-10-15 21:18:51 2647 1

原创 七周学习数据分析——业务知识

模型未动,指标先行。如果你不能衡量它,你就无法增长它。指标核心指标好的指标应该是比率好的指标应该能带来显著效果好的指标不应该虚荣新增用户量很高,但成本也很高,则为虚荣指标。好的指标不应该复杂市场营销指标客户/用户生命周期:企业/产品和消费者在整个关系阶段的周期(潜在用户,兴趣用户,亲客户,老客户,流失用户,回流客户等)。用户价值: 用户贡献=产出量/投入量*100%, 用户价值=贡献1+贡献2+贡献3+…… 如金融行业以存款+贷款+信用卡+年费+……-风险-流失RFM模型:衡量用

2020-10-04 20:30:53 147

原创 SQL面试必考——过去一年,一个月

leetcode 1098. 小众书籍筛选出过去一年中订单总量 少于10本 的 书籍 。注意:不考虑 上架(available from)距今 不满一个月 的书籍。并且 假设今天是 2019-06-23 。筛选过去一年,用左连接,on进行筛选,因为有一些书一本没卖,没有订单,左连接能够显示出来。筛选过去一个月,用where,不能用on。因为用左连接时,on在进行筛选时,只能筛选右边的表,无法筛选左边的表。where可以把整行消除。在进行求和时,用sum()<10,无法包含null值,因为

2020-10-04 11:00:22 513

原创 SQL面试必考——计算留存率

leetcode 1097. 游戏玩法分析 V计算第一天的留存率法一:窗口函数找到安装游戏的时间,及每个玩家第一次登陆的时间,通过min()+窗口函数,可以既找到最小值,又保留原来的值。(若使用聚合函数group by则只能保留一组数)select player_id, event_date, min(event_date) over(partition by player_id) install_dtfrom Activity;计算第一天的登陆玩家人数,和第二天仍然登

2020-10-02 21:17:53 4527 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除