- 博客(20)
- 收藏
- 关注
原创 鸢尾花品种预测(pandas)
Pandas在机器学习和建模中也非常重要,经常用于数据观察、数据格式转换以及数据的归一化和标准化。本案例中,我们介绍Pandas配合sklearn使用经典的鸢尾花研究数据来做品种预测。sklearn集成了iris数据集,它共有4个属性列和一个种类列。4个属性是sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)和petal width(花瓣宽度),单位都是厘米。3个种类是Setosa、Versicolour和Virginica,样本数量为150个
2023-03-29 19:27:31
460
原创 RFM用户分层(pandas)
RFM是典型的用户分层方法,是评估用户消费能力、衡量用户贡献价值的重要工具。RFM代表的是最近一次消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary)。本案例将利用Pandas建立用户消费RFM模型,实现精细化运营。
2023-03-25 18:28:56
451
原创 全国城市房价分析(pandas)
中国主要城市的房价可以从https://www.creprice.cn/rank/index.html获取。该网页中会显示上一个月的房价排行情况,先复制前10个城市的数据,然后使用pd.read_clipboard()读取。我们来分析一下该月的数据(下例中用的是2023年2月数据)接下来就可以对整理好的数据进行分析了。
2023-03-18 23:14:10
232
原创 利用爬虫获取房价(pandas、requests)
Pandas在配合做网络数据采集爬虫时,也能发挥其优势,可承担数据调用、数据存储的工作。将数据存入DateFrame后,可直接进入下一步分析。本例以获取某房产网站中房价为目标,来体验一下Pandas的便捷之处。
2023-03-17 19:19:14
1328
1
原创 计算打卡上班时间的平均时间(pandas、python)
我们发现,mean方法会对时间序列的时间戳求平均值,得出的值为11月2日凌晨4点,这和我们的需求不符,因为我们不需要关心具体哪天,只关注时间。某员工一段时间上班打卡的时间记录如下,现在需要计算他在这期间的平均打卡时间。方法一:用apply调用时间replace方法。方法二:直接用pandas的固定时间对象来调用。将日期归到同一天,再求平均时间。得到了该员工平均的打卡时间。方法三:用agg来调用函数。
2023-03-13 12:56:05
1313
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅