- 博客(28)
- 收藏
- 关注
原创 pandas rolling 时间窗口
在数据竞赛和真实业务中通常会构造时间窗口类指标,除了能用SQL实现上述操作外,我也想在python中实现上诉指标的计算,然后我就发现了pandas中的rolling函数。
2023-04-02 23:52:55
485
转载 2022搜狐校园算法大赛推荐赛道Rank2方案分享
打了这么多比赛,终于拿了一次前排(初赛第3,复赛第2,决赛第3,两次赛点之星)。这次比赛的过程非常漫长,初赛接近两个月,复赛10天,决赛提交docker/准备答辩/录制小视频,真是煎熬,幸好最后拿到了奖金。biendata平台B站利用给出的用户文章点击序列数据及用户相关特征,结合第一部分做出的情感分析模型,对给定的文章做出是否会形成点击转化的预测判别。评价指标gAUC(所有groupAUC的均值)这次比赛数据质量比较高。一方面,每天的数据分布情况基本一致,分数不会有太大抖动。...
2022-07-17 20:51:11
1059
5
原创 统计图表之散点图
目录1. 散点图1.1 常用参数2. 进阶图2.1 气泡图2.2 边缘直方图1. 散点图 散点图用于查看两个变量之间的关系,import pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_excel('data.xlsx')change = data.Open - data.Closex = change[:-1]y = change[1:]plt.scatter(x, y)pl
2021-07-29 16:27:03
2891
2
原创 统计图表-条形图与直方图
条形图与直方图1. 条形图1.1 常用参数1.2水平显示条形图1.3 对比条形图1.4 堆积条形图2. 直方图2.1 常用参数2.2 seaborn中的直方图2.2.1 常用参数1. 条形图 条形图一般用于分类型变量的展示或探索性分析,特点是横轴代表类别,纵轴(条形图的长度)代表频数或者频率,因此条形图的宽度是没有意义的。import numpy as npimport matplotlib.pyplot as plt# 使用jupyter notebook要加上下面的代码以正确显示图片,%m
2021-07-29 10:12:28
4988
1
原创 Python循环语句及条件语句
Python循环语句及条件语句1. for循环1. for循环 python常用的循环语句之一是for,for一般搭配in使用,in之后接我们要循环的内容,只要是可迭代的对象都行。最常用的还是下面这种:for i in range(10): print(i)# 0# 1# 2# 3# 4# 5# 6# 7# 8# 9 当我们需要遍历列表时,我们可以利用列表的特性,来简化代码并提高代码的运行速度:# 定义一个列表a_list = [1, 2, 'abc', {'D
2021-07-27 21:07:11
1771
原创 链家二手房信息爬取(内附完整代码)
链家二手房信息爬取1.简介2. 爬虫思路2.1 网页分析2.2 详情页分析2.3 不同页码的爬取2.4 解决链家只显示100页数据2.5 简单的反爬与进度条显示3. 总结1.简介 最近帮同学爬取了链家在售二手房的信息,这是本人学习爬虫以来爬取数据最多的一次,就想着写个博客记录一下。 本次爬虫是利用python+jupyter notebook实现的,用到的第三方库如下:import pandas as pd # 数据存储import requests # 网页内容获取import re #
2021-07-26 00:40:37
29616
25
原创 python笔记(二)
python的变量类型1. 变量的种类1.1 数字bool:布尔型int:整型float:浮点数complex 复数type(True) # booltype(123) # inttype(1.2) # floattype(1 + 3j) # complex1.1.1 对数字类型的操作+:加法-:减法*:乘法/:除法%:取模//:整除**:幂运算a = 5b = 2print(a + b) # 7print(a - b) # 3print(a * b)
2020-12-01 19:11:21
3171
10
原创 统计图表之饼图
使用matplotlib中的pyplot.pie()绘制常用参数sizes: 每一块所占的比例labels:每一块的标签colors:每一块的颜色autopct:显示每块所占比例的格式startangle:饼图开始的位置explode:每一块离开中心点的距离import matplotlib.pyplot as plt%matplotlib inline# 饼图labels = ['A', 'B', 'C', 'D']sizes = [15, 30, 45, 10] # 每一
2020-11-23 15:30:07
761
原创 统计图表之折线图
折线图主要用于展示数据的变化趋势。1. 折线图的绘制1.1 matplotlib的plot()函数x, y: 需要绘制的点的数据linestyle: 设置线条类型color: 设置线条颜色marker: 设置线条标记风格,‘+’为加号标记,'o’为圆圈,‘-’为实线,‘–’为虚线。linewidth: 设置线条宽度label: 设置线条标签# 导入相应包import pandas as pdimport numpy as npimport matplotlib.pyplot as
2020-11-20 13:42:07
2195
原创 统计图表之箱线图
统计图表之箱线图箱线图主要包含了数据的最大值、最小值、四分位数,因此它可以用来判断数据分布状况,也可以用于简单判断异常值。1. 在python中我们有两种方法来绘制箱线图。第一种方法是通过pandas的DataFrame中的boxplot方法绘制,第二种方法通过matplotlib中plot方法调用boxplot来绘制。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt # 导入需要用到的包# 内嵌绘图,并且可
2020-11-15 15:23:58
4907
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人