自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

子浩的博客

一个大二的臭弟弟在慢慢努力,在做着自己的梦,希望他能用行动证明自己,而不是就嘴上说说

  • 博客(5)
  • 资源 (13)
  • 收藏
  • 关注

原创 python编写关不掉的流氓表白软件——快去找你爱的他表白吧

python编写关不掉的流氓表白软件——快去找你爱的他表白吧部分结果演示:源代码cc.png部分结果演示:源代码from tkinter import *from tkinter import messageboxdef closeallwindow(): window.destroy( )def closeWindow(): messagebox.show...

2020-02-16 15:56:28 22678 100

原创 使用array重塑数据。如果数据只有一个特征,则重塑(-1,1);如果数据包含一个样本,则重塑(1,-1)。

Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.使用array重塑数据。如果数据只有一个特征,则重塑(-1,1);如果数据包含一个样本,则重塑(1,-1)。...

2020-02-16 20:03:55 12101

原创 pandas的timestamp时间戳转string

df[['年月日']].apply(lambda x: x.strftime(‘%Y-%m-%d’))df['年月日'] =[x.strftime('%Y-%m-%d') for x in df['年月日']]

2020-02-16 16:17:57 19217

原创 pandas的string日期列转化为timestamp(时间戳)

df["年月日"] = pd.to_datetime(df["年月日"])实例:df.head()#将年月日列从string转为timestamp(时间戳)df["年月日"] = pd.to_datetime(df["年月日"])df.head()

2020-02-16 15:31:26 18372 2

原创 pandas中列的字符串str转float格式

df[u"平均気温(℃)"] = pd.to_numeric( df[u"平均気温(℃)"])

2020-02-16 15:26:34 22788

数据——东北大学大数据班数据挖掘实训四.zip

博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据 利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】

2020-05-03

数据——东北大学数据挖掘实训三.zip

《【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三》的数据

2020-05-03

波士顿房价数据集(boston_housing.npz)

本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。 本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 01;有的取值范围为 112;还有的取值范围为 0~100,等等。

2020-04-27

reuters.npz和reuters_word_index.json.zip

路透社数据集,它包含许多短新闻及其对应的主题,由路透社在 1986 年发布。它 是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题:某些主题的样本更多, 但训练集中每个主题都有至少 10 个样本。 与 IMDB 和 MNIST 类似,路透社数据集也内置为 Keras 的一部分。

2020-04-26

mnist完整手写数字集

mnist.npz 我们将使用 MNIST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这 个领域一样长,而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图 像,由美国国家标准与技术研究院(National Institute of Standards and Technology,即 MNIST 中 的 NIST)在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello

2020-04-25

imdb完整的数据集

imdb.npz和imdb_word_index.json 互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。

2020-04-25

pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)

python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe,命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 ) 14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0,统计df中有多少次航班起飞延误 16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8 17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值) 18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv

2020-03-29

numpyTrain (1).html 练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)

练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1) 实训项目:练习使用numpy的方法。 (1)用0~19的数字生成(4,5)的数组命名为a,查看a的维度;查看a的轴的个数;查看a元素的总个数; (2)创建元素为1,2,3,4的(2,2)的数组 b,查看b中元素类型。 (3)创建一个全1的(4,4)的数组c;创建一个内容随机的(3,2)数组d,并打印d。 (4)用0~11的数,创建一个3*4的数组n1,计算每一列的和;计算每一行的最小值。 (5)生成一个3个元素的数组n2,通过常用函数计算每个元素的平方根;每个元素的标准差。 (6)生成一个9个(可以从0~8)元素的数组n3,计算每个元素的平方根;取出位置2的元素;取出位置2至5之间的元素。 (7)随机生成2个3*3的数组n4和n5,将n4和n5进行垂直合并形成n6;将n4和n5进行水平合并形成n7。 (8)创建一个2行3列的零矩阵命名为z,将z的2行3列的位置值置成1。 (9)生成4*4的对角矩阵,以[1,2,3,4]为对角线,其他位置用0填充,命名为z1 。 (10)用0~8的数,创建成`3*3`的矩阵,命名为z2;用随机数,创建`4*4`的矩阵,命名为z3。 (11)读取iris数据集中的数据。 (12)获取数据中的花萼长度数据。 (13)对花萼长度数据进行排序。 (14)对花萼长度数据进行去重。 (15)对花萼长度数据进行求和。 (16)对花萼长度数据进行求均值。 (17)对花萼长度数据求累计和。 (18)对花萼长度数据求标准差。 (19)对花萼长度数据求方差 。 (20)对花萼长度数据求最大值、最小值。

2020-03-29

matplotlibTrain (1).html python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三

python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三 题目:练习使用matplotlib 包中的方法绘图。 1.通过pandas包将数据scmd_CalculationData.csv读入,从中取出winddirection和windspeed1这2个字段,绘制风速与风向的散点图(风向为横轴,风速为y轴)。(要求:有标题(风速与风向的函数)、横纵坐标的标题、设置网格,保存图片文件命名为1风速与风向的函数.png) 2.通过pandas包将数据scmd_CalculationData.csv读入,从中取出windspeed1、power_max、power_min、power和power_dev这5个字段,绘制功率特性的散点图(风速为x轴,其他为y轴)。(要求:有标题(功率特性散点图)、横纵坐标的标题、图例、设置网格,保存图片文件命名为2功率特性散点图.png) 3.通过pandas包将数据bz_df_wt.csv读入,从中取出bin_bz_fs<=20的数据,然后取出实际风速bin_bz_fs和实际功率bin_bz_power;再读入bzglqx.csv取出保证风速fs和保证功率gl,绘制功率曲线的对比图(一张图中绘制,横轴为风速,纵轴为功率)。(要求:有标题(实测与设计功率曲线对比)、横纵坐标的标题、图例、设置网格,保存图片文件命名为3实测与设计功率曲线对比.png)

2020-03-29

东北大学Linux实验报告及代码sk.zip

东北大学软件学院Linux实验报告及代码 老师是sk 东北大学软件学院Linux实验报告及代码 老师是sk

2020-02-04

泰坦尼克号0.81准确率python源代码.py

这是kaggle泰坦尼克号准确率0.81的python数据分析超级详细的源代码 这是传说中的泰坦尼克机器学习比赛-对你来说最好的,第一次挑战,让你潜入机器学习比赛,熟悉Kaggle平台的工作原理。 竞争很简单:使用机器学习来创建一个模型,预测哪些乘客在泰坦尼克号沉船事故中幸存下来。

2019-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除