![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
God58991
这个作者很懒,什么都没留下…
展开
-
机器学习算法(三)K近邻(k-nearest neighbors)
一、KNN的介绍和应用1.1 KNN的介绍kNN(k-nearest neighbors),中文翻译K近邻。我们常常听到一个故事:如果要了解一个人的经济水平,只需要知道他最好的5个朋友的经济能力,对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。示例 :如上图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形原创 2020-12-29 22:07:11 · 1335 阅读 · 0 评论 -
机器学习算法(二):朴素贝叶斯(Naive Bayes)
目录一、朴素贝叶斯算法二、鸢尾花算法实战--贝叶斯分类一、朴素贝叶斯算法朴素贝叶斯算法(Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。.原创 2020-12-27 22:07:54 · 632 阅读 · 0 评论 -
机器学习算法(一):基于逻辑回归的分类预测
逻辑回归的介绍与优劣势 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。 优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高 算法实战## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as plt原创 2020-12-21 22:38:42 · 561 阅读 · 0 评论 -
已知一个datetime,筛选其前七天的数据
问题一开始想的很简单,直接用timedelta求7天的时间差,然后原始数据减去时间差,然后只需大于data_pre_seven,小于a即可,如下:a = pd.to_datetime('20120701 11:22:33')sevenday = datetime.timedelta(days=7)date_pre_seven = a - sevendaypre_seven_day = id_data[(id_data['日期时间'] > date_pre_seven) & (i原创 2020-10-21 11:45:40 · 1118 阅读 · 1 评论 -
Python入门(10)——宝可梦数据集探索
数据时代的到来刷新了人们探索未知的方式,本文就通过使用数据分析的方式来帮助我更好的了解宝可梦这种神奇的生物,然后再选择最经济实惠,简单好抓的宝可梦来挑战联盟。通过使用搜索引擎,找到了一份包含着从第一代到第七代共801只宝可梦的数据集。然后选择有免费计算资源且预置了许多常用数据分析依赖库的 DSW探索者版 来帮助完成分析的过程。数据集下载可直接通过输入网址进行文件下载,然后本地读取。# 数据集下载!wget -O pokemon_data.csv https://pai-public-...原创 2020-09-16 19:21:47 · 1340 阅读 · 0 评论 -
布尔索引 DataFrame中将满足某列字符长度条件的行删除
不知道为啥,用pandas将文件读入DataFrame时,将前面的0自动给我删了,比如000003就直接给我转为3了,这样再做后续操作的时候肯定就会出错的嘛。比如我是打算把000003转换为00:00:03的,结果就搞不成了。不让我转,删了总行了吧,反正这个也是无效信息。就考虑根据列中值的字符串长度,进行行的删除。首先想到的就是布尔索引,下面先介绍下布尔索引df=df[逻辑表达式取反]以...原创 2019-12-11 11:52:50 · 3068 阅读 · 0 评论 -
dataframe将时间设置为索引,并根据时间段切片
原始数据‘序号’,‘卡号’,‘日期’,‘时间’,‘线路编号’,‘车辆编号’,‘站点编号’,‘上下行标志’,‘卡别’,‘其他’1950001 000038072 20180303 092447 105 10505 2 下行 普通卡1950002 000038072 20180303 093536 18 1805 ...原创 2019-12-09 20:55:33 · 13391 阅读 · 0 评论