自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

妖白的奇幻漂流世界

世界这么大,我要学python

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

转载 向量转置怎么求导(多元线性回归原理推导用)

 转自:http://www.mathchina.net/dvbbs/dispbbs.asp?boardid=4&Id=1732

2018-05-28 16:22:49 14161

转载 PCA主成分分析(原理+例子)

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/42264479 什么是PCA?  在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、SVD、特征值、...

2018-05-24 15:42:08 24886

原创 ppython3 关于agg函数的用法(一般与groupby函数连用)

为了了解agg这个函数 我们先以下数据集作为研究对象 (截图的一部分)agg:这里一般都与groupby函数作为比较 pandas引入了agg函数,它提供基于列的聚合操作。而groupby可以看做是基于行,或者说index的聚合操作通过这里介绍我们可以交接 groupby函数是基于行操作的 而agg是基于列操作的这个说可能太抽象,什么是行操作 什么是列操作呢最简单的理解就是 基于行操作 我可以进行...

2018-05-15 15:34:31 54525 1

原创 python进行数据处理过程中怎么对单列进行操作(python3中get_dummies函数为例)

我们以下面数据为例上图为我们的数据 我们可以发现 如果我们对  behavior_type 这一列单独操作,这里我们想把他弄成热编码的形式会对我们以后的操作更好一点 即 1 2 3 4 对应 1000 0100 0010 0001 但是这一列在数据中我们怎么单独操作呢 这里我们用到了join函数 即 我先单独分析 behavior_type 这一列然后 没进行操作的列我们在拼接上 相当于想拆...

2018-05-14 17:15:15 4254

原创 python3中的drop_duplicates函数(对数据进行去重处理)

我们知道这个函数是去重处理函数 ,单列进行处理比较好理解但是如果多列进行处理具体啥意思呢?用上述数据表示:简单理解 如果df_part_1.drop_duplicates(['user_id','behavior_type'], 'last')这句话的意思就是 这两列元素一样的话 就相当于重复(只看这两类 其他列重复不重复没有一点关系)  重复了我们就要去重,对吧。那么既然重复这么多 我们最后还是...

2018-05-14 16:54:02 30834 1

原创 python3关于groupby函数最简单的介绍和理解

首先我们先来看下网上最经典的解释即对不同列进行在分类,标准是 先拆分 在组合(如果有操作比如sum则可以进行操作)什么意思呢 。就是我们读取文件不是有很多列吗,如果我按列就行分类,那么先把选取列一样的挑出来然后在进行操作。具体的看下下面一个例子这里我们的列名省略了 其实是df_part_1.columns = ['user_id','item_id','behavior_type','item_c...

2018-05-14 16:42:36 8996

原创 python3中关于选定一天的日期和选定一段时间的日期操作

在所有的日期中找某天的数据我们先看这个数据我们想要取众多日期的一天 那么简单的借用一下pd.read_csv中的参数就可以了重点我们要了解一下这几个参数:                            parse_dates = ['time3'],                            index_col = ['time3']parse_dates :把选取的这一列解析...

2018-05-14 16:11:11 3714

转载 深入浅出 卡尔曼滤波

最通俗理解的方法 无公式选自知乎大神 https://www.zhihu.com/question/23971601假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处...

2018-05-11 14:54:12 1371

转载 怎么用python提取数据中的特征(特征工程都包括哪些部分)

文章载:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Fi...

2018-05-06 11:09:53 20505 1

原创 python3怎么筛选excel中特定的行(行中的值满足某个条件/行中的值属于某个集合)

做数据分析的时候通常我们并不是对真个excel文件进行操作,换言之,每一列都是一个特征,我们需要针对分析。遇到这类问题的时候,我们通常想得到一列中所有符合条件的数据,挑出来,然后组成一个单独的文件进行分析。比如一列中我们希望找到所有大于100的所有行,又比如 我们希望得到一列中包含某个特定字母的所有行,那么我们应该怎么办呢,这里就说一下。   在这之前我们先介绍一个pandas里面一个函数 loc...

2018-05-04 16:03:25 51316 14

转载 深入浅出的 Adaboost算法

转自知乎 :https://zhuanlan.zhihu.com/p/32960452 通俗易懂 https://zhuanlan.zhihu.com/p/30676249 数学解释 https://zhuanlan.zhihu.com/p/23987221 一些参数理解通过前面的学习和讲解,我们知道了AdaBoost是一种ensem...

2018-05-03 15:41:40 6123 2

python3爬取贴吧图片(翻页+模拟浏览器)

利用python3 爬取贴吧图片 并且实现翻页功能 模拟浏览器 通过bs4,requests库和正则表达式 爬取图片并现在到本地硬盘中 爬虫第一课

2017-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除