机器学习
文章平均质量分 91
那就叫老王吧
这个作者很懒,什么都没留下…
展开
-
机器学习10——电影案例分析
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt1 问题一想要知道电影数据中某些数据的均值等In [24]:movie = pd.read_csv("./data/IMDB-Movie-Data.csv")In [25]:movie.head()Out[25]:RankTitleGenreDescriptionDirectorActorsYearRuntime (Min原创 2021-10-07 16:09:04 · 694 阅读 · 0 评论 -
机器学习8:——Pandas——8:高级处理5:分组与聚合
一.高级处理-分组与聚合学习目标目标应用groupby和聚合函数实现数据的分组与聚合应用星巴克零售店数据的分组与聚合分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:1 什么是分组与聚合2 分组APIDataFrame.groupby(key, as_index=False)key:分组的列数据,可以多个原创 2021-09-26 22:11:23 · 327 阅读 · 0 评论 -
机器学习7:——Pandas——7:高级处理4:交叉表和透视表
一.高级处理-交叉表与透视表学习目标目标应用crosstab和pivot_table实现交叉表与透视表应用股票的每日涨跌跟星期几关系大1 交叉表与透视表什么作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例2 使用crosstab(交叉表)实现上图交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(寻找两个列之间的关系)原创 2021-09-26 21:30:21 · 330 阅读 · 0 评论 -
机器学习6:——Pandas——6:高级处理3:数据合并
一.高级处理-合并学习目标目标应用pd.concat实现数据的合并应用pd.merge实现数据的合并应用无如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析**1 pd.concat实现数据合并pd.concat([data1, data2], axis=1)按照行或列进行合并,axis=0为列索引,axis=1为行索引比如我们将刚才处理好的one-hot编码与原数据合并[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(原创 2021-09-26 17:45:07 · 529 阅读 · 0 评论 -
机器学习5:——Pandas——5:高级处理2:数据离散化处理
一.高级处理——数据离散化学习目标目标应用cut、qcut实现数据的区间分组应用get_dummies实现数据的one-hot编码应用找出股票的涨跌幅异动(异常)值1 为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。2 什么是数据的离散化连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。离散化有很多种方法,原创 2021-09-26 16:31:46 · 343 阅读 · 0 评论 -
机器学习4:——Pandas——4:高级处理1:缺失值处理
1 缺失值处理In [3]:movie = pd.read_csv("./data/IMDB-Movie-Data.csv")In [4]:movieOut[4]:RankTitleGenreDescriptionDirectorActorsYearRuntime (Minutes)RatingVotesRevenue (Millions)Metascore01Guardians of the GalaxyAction,Adventure,Sc原创 2021-09-26 09:47:13 · 387 阅读 · 0 评论 -
机器学习3:——Pandas——3:文件读取和存储
一.文件读取与存储学习目标目标了解Pandas的几种文件读取存储操作应用CSV方式和HDF方式实现文件的读取和存储应用实现股票数据的读取存储我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。注:最常用的HDF5和CSV文件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-417J5Wkb-1632584576844)(…/images/原创 2021-09-25 23:58:02 · 731 阅读 · 0 评论 -
机器学习2:——Pandas——2:DataFrame运算
5.3 DataFrame运算学习目标目标使用describe完成综合统计使用max完成最大值计算使用min完成最小值计算使用mean完成平均值计算使用std完成标准差计算使用idxmin、idxmax完成最大值最小值的索引使用cumsum等实现累计分析应用逻辑运算符号实现数据的逻辑筛选应用isin实现数据的筛选应用query实现数据的筛选应用add等实现数据间的加法运算应用apply函数实现数据的自定义处理应用股票每日数据的统计1 算术运算add(o原创 2021-09-25 23:37:02 · 272 阅读 · 0 评论 -
机器学习1:——Pandas——1:基本数据操作
一.基本数据操作学习目标目标记忆DataFrame的形状、行列索引名称获取等基本属性应用Series和DataFrame的索引进行切片获取应用sort_index和sort_values实现索引和值的排序应用股票每日数据的操作为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API# 读取文件data = pd.read_csv("./data/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的原创 2021-09-25 23:11:58 · 336 阅读 · 0 评论 -
对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结
对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结1.摘要 这篇综述主要系统阐述了:作者通过阅读文献,总结了基于机器学习技术解决滑坡危险性评价方法;可以分为 1、评价因子选择 2、数据清洗与样本集构建 3、模型选取与训练评价 这三个关键环节对现有研究成果进行分析评述;最后对机器学习滑坡危险性评价方法的发展趋势提出讨论意见。2.研究背景 由于我国国土面积体量大,地形地貌种类繁多,所以相应的滑坡灾害影响范围广。因此可以通过一些方法对区域滑坡危险性进行评估,进而划分轻重缓急区别对待。原创 2021-09-11 12:59:18 · 1842 阅读 · 1 评论