手把手带你研究机器学习(纯萌新入门攻略,详细到不能再详细)
文章平均质量分 70
咨询问题请订阅该专栏
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
爱做梦的鱼
我想做出一款伟大的产品,而不是向钱看的产品,做出一个真正科技改变生活的产品,而不是对其他人毫无益处的产品。
这个世界越来越浮躁,大家都不愿踏踏实实做事,都在弄虚作假,都在做容易且能快速获利的事,可是有的事本身就是错的啊,大家为什么视而不见呢,比如说好多公司总在想办法把产品卖出去,而不是想着先做好产品,有些事也总是要做的,比如我们觉得这个产品就要这样做,那我们就去做,去尝试,不要说其他厂商都不这样做,那我们就不做。
展开
-
python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三
题目:练习使用matplotlib 包中的方法绘图。1.通过pandas包将数据scmd_CalculationData.csv读入,从中取出winddirection和windspeed1这2个字段,绘制风速与风向的散点图(风向为横轴,风速为y轴)。(要求:有标题(风速与风向的函数)、横纵坐标的标题、设置网格,保存图片文件命名为1风速与风向的函数.png)import pandas as p...原创 2019-12-03 18:22:21 · 12183 阅读 · 0 评论 -
python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)
实训练习:练习使用pandas 包中的dataframe和方法。1将数据读取为dataframe类型,命名为dfimport pandas as pdimport numpy as npdf=pd.read_csv("C:\\Users\\zzh\\Desktop\\dataMiningExperment\\exp2\data\\flight.csv")df.head() ...原创 2019-12-03 18:18:01 · 11897 阅读 · 0 评论 -
练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)
实训项目:练习使用numpy的方法。(1)用0~19的数字生成(4,5)的数组命名为a,查看a的维度;查看a的轴的个数;查看a元素的总个数;import numpy as npa = np.arange ( 20 ).reshape( 4, 5 ) #用0~19的数字生成(4,5)的数组命名为aaarray([[ 0, 1, 2, 3, 4], [ 5, ...原创 2019-12-03 18:15:33 · 12198 阅读 · 0 评论 -
【Python sklearn】kaggle Titanic生死预测--0.81准确率--python超详细数据分析--附源代码和报告的下载地址
kaggle Titanic生存率预测数据分析1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果。从kaggle泰坦尼克生存预测项目下载相关数据。原创 2019-11-05 17:11:20 · 18673 阅读 · 79 评论 -
如何评估机器学习模型?
目录概述为什么不是两个集合:一个训练集和一个测试集?具体方法1. 简单的留出验证2. K折验证《Python深度学习中文版》部分内容+自己总结概述评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后测试一次。为什么不是两个集合:一个训练集和一个测试集?为什么不是两个集合:一个训练集和一个测试集...原创 2020-05-02 21:44:35 · 17072 阅读 · 57 评论 -
机器学习一
在学习机器学习的时候,心里一定要有这么一个图,不然越到后面越糊涂原创 2020-01-01 15:02:13 · 12546 阅读 · 31 评论 -
为什么随机森林不完全按照那四个(x_train、y_train、x_test、y_test)做出来的结果也是正确的???
train数据集包括x_train和y_train1、代码不完全按照那四个来处理没有train.names[0:-1]去除最后一列model1 = H2ORandomForestEstimator() # 初始化(建立)模型model1.train(x = train.names,y = 'Catrgory',training_frame = train) # 训练模型 没有tes...原创 2020-01-01 15:50:42 · 13831 阅读 · 0 评论 -
【Python】BP神经网络——东北大学数据挖掘实训六
实训题目:理解BP神经网络的前馈和反馈过程,并利用python实现一个AutoEncoder的神经网络(即输入等于输出的网络)【建议用矩阵的形式写】。并利用sklearn包中的iris数据集来验证算法的准确性。获取数据的方式为:from sklearn import datasetsiris = datasets.load_iris()data = iris[‘data’]建议:算...原创 2020-01-07 20:55:53 · 13199 阅读 · 0 评论 -
【Python】驾驶类型聚类-Kmeans聚类算法和PCA降维算法——东北大学数据挖掘实训五
题目:通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 。利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习。并利用scikitlearn包中的PCA算法来对数据进行降维,然后画图展示出聚类效果。通过调节聚类算法的参数,来观察聚类效果的变化,练习调参。import pandas ...原创 2020-01-02 15:42:13 · 14055 阅读 · 1 评论 -
【Python】随机森林算法——东北大学大数据班数据挖掘实训四
利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】import h2ofrom h2o.estimators.random_forest import H...原创 2020-01-01 21:16:56 · 12602 阅读 · 0 评论 -
【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三
1.利用决策树算法对train_feature.csv进行训练对test_feature.csv进行预测(练习调参),并计算预测正确的准确率。(由于训练数据的数据分布不平衡,所以将数据进行平衡处理,正样本保留,负样本从原负样本中取出正样本数量的n倍)说明:准确率=(测试集中预测为下载)&(测试集中实际为下载)/测试集实际为下载的数据量import pandas as pdfrom sk...原创 2019-12-26 20:26:26 · 13928 阅读 · 2 评论 -
【Python】商品关联分析-Apriori算法——东北大学数据挖掘实训二
假设我们经营一家商品种类并不多的杂货店,我们对那些经常在一起被购买的商品组合感兴趣。设我们只有5种商品:商品1,商品2,商品3,商品4和商品5 。(1)通过Apriori算法实现从交易记录中找到商品的频繁项集。(2)通过(1)中计算的频繁项集,挖掘关联规则设交易清单为[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5],这里的数字代表商品;设最小支持度为...原创 2020-01-07 21:10:28 · 12807 阅读 · 0 评论 -
【Python】广义线性回归(多项式回归)——东北大学数据挖掘实训一(3)
(4)再利用多项式回归对数据进行拟合,并进行预测;将观测值与拟合值,进行图形展示(同上)。import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.pipeline import...原创 2019-12-28 20:34:54 · 12257 阅读 · 1 评论 -
【Python】最小二乘法(线性回归LinearRegression()和岭回归Ridge())——东北大学数据挖掘实训一(2)
(3)根据分析结果,利用年龄、年份和对数生存人口数(L_male_exp)这3个变量与死亡人数(Male_death)之间的关系,利用普通最小二乘线性模型进行模型拟合,并进行预测;将观测值与拟合值,进行图形展示(以样本的观测值做为x轴,拟合值作为y轴绘制散点图)import pandas as pdfrom sklearn.model_selection import train_test_s...原创 2019-12-26 19:18:58 · 12401 阅读 · 0 评论 -
【Python】数据探索分析——东北大学软件学院大数据班数据挖掘实训一(1)
1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0前言:如果有幸被同班同学刷到,请你点个赞,谢谢,要是能评论就更好了,谢谢大家(1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0<q<=1范围内的数据。import pandas as pddf=pd...原创 2019-12-25 20:37:51 · 13230 阅读 · 0 评论