自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 2021-01-10

线性分类-逻辑回归 逻辑回归和线性回归之间有何联系,又有什么样的不同之处? 不同点:逻辑回归是用来进行分类任务的,而且是典型的二分类,线性回归是用来进行预测的,二者任务的性质是不同的。 联系:逻辑回归是将线性回归的输入值再通过一个激活函数映射成一个概率值,用概率值的大小来进行分类。 由上面的叙述引出第一个问题,逻辑回归所用的激活函数是什么呢? 答:Sigmoid函数,函数的图像由下图所示:Sigmoid函数的表达式Y=11+e−zY=\frac{1}{1+e^{-z}}Y=1+e−z1​ Sigmoid函数

2021-01-10 12:57:01 136

原创 2021-01-03

pandas处理缺失值 df =pd.read_csv('data\learn_pandas.csv',usecols=['Grade','Name','Gender','Height','Weight','Transfer']) 查看是否存在缺失值一般使用isna()和isnull()这两个函数 df.isnull().head() Grade Name Gender Height Weight Transfer 0 False False False False False False 1 F

2021-01-03 14:05:31 90

原创 2021-01-01

机器学习-线性回归 线性回归是机器学习算法中比较简单的入门算法之一,一般用来做预测,核心思想就是用一条线去拟合数据,使得预测值和真实值之间的误差最小。 我们先从图片上直观的理解一下,我们有一对数据样本,最终的目的就是找到一条对样本拟合程度最好的线。 那么怎么从数学的角度去把我们想要表达的意思表达出来呢? 假设我们有一堆数据样本,它的数学表现形式是: D={(x1,y1)(x2,y2).....(xn,yn)}D=\{ (x_1,y_1)(x_2,y_2).....(x_n,y_n)\}D={(x1​,y1

2021-01-01 12:51:15 95

原创 2020-12-29

pandas连接 首先说一下为什么会出现连接操作,在现实任务需求中,我们常常需要把两张及以上的表以某一个键组合起来形成一张新的表,之前讲的分组和变形是在一张表上进行的操作,而连接是针对多张表进行操作。 这篇文章主要分三块来写关于连接的操作:关系型连接、方向连接、类连接操作,先简单的叙述一下关系型连接和方向连接之间的不同之处,以例子来说明,一般学校在期末的时候或公司在年底的时候都需要做总结,比如学校就需要把各个班的期末成绩都汇总在一起,那么需要以班级作为键,来将数据汇总起来。那有时候只是单纯的想把数据拼接起来

2020-12-29 13:42:04 287 1

原创 2020-12-27

pandas变形 pandas的变形操作相较于分组等操作来说,比较难理解一些,整个变形的过程可以分为表的变形和索引的变形两大部分 表的变形: 首先是长宽表之间的变形,那么我们该如何来定义长表和宽表呢?长宽表的定义是按照某一维的特征来说的,具体来介绍一下,例如我们从“学历”这个维度来看的话,假如我们把学历这个特征是放在一列中,那么就是长表,如果学历这个特征中的具体属性作为列索引的话,就是宽表。 长宽表之间的变形分为两种:1.长-宽2.宽-长 我们分别来介绍一下两种变形之间所涉及到的函数,以及变换的过程: 1.

2020-12-27 18:24:07 417

原创 2020-12-25

pandas分组 一、 分组的理解:分组其实就是按照,某一确定的指标对数据集进行划分,在分块的基础上可以对数据进行相应的操作。 pandas中分组操作主要是利用groupby函数来实现的 例如,我们想看一下数据集中,不同性别对应的身高的均值是多少,可以使用以下代码 df.groupby('Gender')['Height'].mean() Gender Female 159.19697 Male 173.62549 Name: Height, dtype: float64 往往现实中的需求

2020-12-25 13:36:07 78

原创 2020-12-22

pandas索引 一、索引器 需要注意的点: 1.在Series使用字符串作为索引是,如果选择的是唯一的起点和终点字符,可以使用切片,而且需要注意切片包含两个端点(和python不同),如果不是唯一的字符值会报错。 2.Dataframe中的索引器主要分为两种,一种是loc(基于元素),另一种是iloc(基于位置) 3.在Dataframe中筛选时,也可以使用布尔列表(条件筛选)单个条件(数值类的可以使用>,<,==等)(字符类的有isin等方法)复合条件可以使用(|或,&且,~取反)。

2020-12-22 19:07:34 141

原创 2020-12-18

pandas基础 1.drop_duplicates方法 drop_duplicates方法是对DataFrame格式的数据,去除特定列下面的重复行,这个函数中比较关键的参数是keep,有三种取值【first,last,False】默认值 first 表示每个组合保留第一次出现的所在行, last 表示保留最后一次出现的所在行, False 表示把所有重复组合所在的行剔除。 data = pd.DataFrame({'A':[1,1,2,2],'B':['a','b','a','b']}) data

2020-12-18 18:41:53 267

原创 2020-12-16

pandas数据分析预备知识 python基础 1.列表推导式与条件赋值 列表推导式是Python构建列表(list)的一种快捷方式,可以使用简洁的代码就创建出一个列表.例如生成一个序列列表,列表推导式比常用的for循环更方便 常用的for循环: L = [] for i in range(10): L.append(i) L [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 使用列表推导式: L = [i for i in range(10)] L [0, 1, 2, 3, 4, 5

2020-12-16 17:28:28 96 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除