数据——东北大学大数据班数据挖掘实训四.zip
博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据
利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】
数据——东北大学数据挖掘实训三.zip
《【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三》的数据
波士顿房价数据集(boston_housing.npz)
本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 01;有的取值范围为 112;还有的取值范围为 0~100,等等。
reuters.npz和reuters_word_index.json.zip
路透社数据集,它包含许多短新闻及其对应的主题,由路透社在 1986 年发布。它
是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题:某些主题的样本更多,
但训练集中每个主题都有至少 10 个样本。
与 IMDB 和 MNIST 类似,路透社数据集也内置为 Keras 的一部分。
mnist完整手写数字集
mnist.npz
我们将使用 MNIST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这
个领域一样长,而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图
像,由美国国家标准与技术研究院(National Institute of Standards and Technology,即 MNIST 中
的 NIST)在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello
imdb完整的数据集
imdb.npz和imdb_word_index.json
互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。
pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)
python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)
实训练习:练习使用pandas 包中的dataframe和方法。
1将数据读取为dataframe类型,命名为df
2查看数据的形状[了解数据有多少行、多少列]
3查看数据的最开始的7条数据和尾部的3条数据
4查看数据的各字段的类型
5查看数据是否有缺失值
6如果有缺失值,进行补0操作
7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1
8从df中按位置选取行为3和4,列为0,1的数据形成新的df2
9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式
10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3
11从df中选取‘ time’大于100的数据做为新的df4
12将df3和df4合并为一个dataframe,命名为df5
13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 )
14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7
15根据dep_delay不为0,统计df中有多少次航班起飞延误
16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8
17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值)
18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv
numpyTrain (1).html 练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)
练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)
实训项目:练习使用numpy的方法。
(1)用0~19的数字生成(4,5)的数组命名为a,查看a的维度;查看a的轴的个数;查看a元素的总个数;
(2)创建元素为1,2,3,4的(2,2)的数组 b,查看b中元素类型。
(3)创建一个全1的(4,4)的数组c;创建一个内容随机的(3,2)数组d,并打印d。
(4)用0~11的数,创建一个3*4的数组n1,计算每一列的和;计算每一行的最小值。
(5)生成一个3个元素的数组n2,通过常用函数计算每个元素的平方根;每个元素的标准差。
(6)生成一个9个(可以从0~8)元素的数组n3,计算每个元素的平方根;取出位置2的元素;取出位置2至5之间的元素。
(7)随机生成2个3*3的数组n4和n5,将n4和n5进行垂直合并形成n6;将n4和n5进行水平合并形成n7。
(8)创建一个2行3列的零矩阵命名为z,将z的2行3列的位置值置成1。
(9)生成4*4的对角矩阵,以[1,2,3,4]为对角线,其他位置用0填充,命名为z1 。
(10)用0~8的数,创建成`3*3`的矩阵,命名为z2;用随机数,创建`4*4`的矩阵,命名为z3。
(11)读取iris数据集中的数据。
(12)获取数据中的花萼长度数据。
(13)对花萼长度数据进行排序。
(14)对花萼长度数据进行去重。
(15)对花萼长度数据进行求和。
(16)对花萼长度数据进行求均值。
(17)对花萼长度数据求累计和。
(18)对花萼长度数据求标准差。
(19)对花萼长度数据求方差 。
(20)对花萼长度数据求最大值、最小值。
matplotlibTrain (1).html python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三
python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三
题目:练习使用matplotlib 包中的方法绘图。
1.通过pandas包将数据scmd_CalculationData.csv读入,从中取出winddirection和windspeed1这2个字段,绘制风速与风向的散点图(风向为横轴,风速为y轴)。(要求:有标题(风速与风向的函数)、横纵坐标的标题、设置网格,保存图片文件命名为1风速与风向的函数.png)
2.通过pandas包将数据scmd_CalculationData.csv读入,从中取出windspeed1、power_max、power_min、power和power_dev这5个字段,绘制功率特性的散点图(风速为x轴,其他为y轴)。(要求:有标题(功率特性散点图)、横纵坐标的标题、图例、设置网格,保存图片文件命名为2功率特性散点图.png)
3.通过pandas包将数据bz_df_wt.csv读入,从中取出bin_bz_fs<=20的数据,然后取出实际风速bin_bz_fs和实际功率bin_bz_power;再读入bzglqx.csv取出保证风速fs和保证功率gl,绘制功率曲线的对比图(一张图中绘制,横轴为风速,纵轴为功率)。(要求:有标题(实测与设计功率曲线对比)、横纵坐标的标题、图例、设置网格,保存图片文件命名为3实测与设计功率曲线对比.png)
东北大学Linux实验报告及代码sk.zip
东北大学软件学院Linux实验报告及代码
老师是sk
东北大学软件学院Linux实验报告及代码
老师是sk
泰坦尼克号0.81准确率python源代码.py
这是kaggle泰坦尼克号准确率0.81的python数据分析超级详细的源代码
这是传说中的泰坦尼克机器学习比赛-对你来说最好的,第一次挑战,让你潜入机器学习比赛,熟悉Kaggle平台的工作原理。
竞争很简单:使用机器学习来创建一个模型,预测哪些乘客在泰坦尼克号沉船事故中幸存下来。