qq_28368825-CSDN博客

原创随机森林在乳腺癌数据上的调参

随机森林在乳腺癌数据上的调参from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport p

2022-04-10 23:28:03 161

原创泰坦尼克幸存者预测

泰坦尼克幸存者预测import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot

2022-04-06 22:03:31 221

原创 XGboost使用

XGboost使用

2022-04-05 17:52:43 939

原创梯度提升树和XGboost

梯度提升树和XGboost

2022-04-05 11:13:03 1066

原创决策树与随机森林实践

决策树与随机森林实践

2022-04-04 21:08:09 590

原创决策树和随机森林

决策树和随机森林

2022-03-30 09:14:20 1058

原创回归实践---

回归实践

2022-03-28 21:00:30 101

原创回归-----

回归

2022-03-28 20:35:23 98

原创数据清洗和特征选择

数据清洗和特征选择主成分分析将特征值分布在某一空间中，这一空间中的特征值的方差为最大值。

2022-03-28 20:03:07 1167

原创 pytorch-手写数字识别

pytorch-手写数字识别导入工具函数import torchfrom matplotlib import pyplot as pltdef plot_curve(data): fig = plt.figure() plt.plot(range(len(data)), data, color='blue') plt.legend(['value'], loc='upper right') plt.xlabel('step') plt.ylabel

2022-03-18 09:53:00 119

原创 sklearn-线性回归、岭回归、逻辑回归、聚类

sklearn-线性回归、岭回归、逻辑回归、聚类一.线性回归1.概念试图学得一个通过属性的线性组合来进行预测的函数：f(x)=w_1x_1+w_2x_2+…+w_dx_d+bw为权重，b称为偏置项，可以理解为：w_0×1比如：期末成绩：0.7×考试成绩+0.3×平时成绩西瓜好坏：0.2×色泽+0.5×根蒂+0.3×敲声注意：预测结果与真实值是有一定的误差2.损失函数①最小二乘法之正规方程②梯度下降例子：α为学习速率，需要手动指定，表示方向。理解：沿着这个函数下

2022-03-16 09:18:09 223

原创 sklearn分类算法-决策树、随机森林

sklearn分类算法-决策树、随机森林一.决策树1.概念决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法比如：你母亲要给你介绍男朋友，是这么来对话的：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。2.计算例子银行贷款数据①引申-信息熵假如32支球队中猜测最后的总冠军，

2022-03-15 09:03:25 489

原创 sklearn——K近邻算法及朴素贝叶斯

sklearn——K近邻算法及朴素贝叶斯一.K近邻算法1.原理定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种分类算法K近邻的核心算法：两个样本的距离可以通过如下公式计算，又叫欧式距离比如说，a(a1,a2,a3),b(b1,b2,b3)2.sklearn API①代码from sklearn.neighbors import KNeighborsClassif

2022-03-14 11:26:51 727

原创 sklearn——数据降维

sklearn——数据一.特征选择1.特征选择是什么特征选择就是单纯地从所有特征中选择一部分特征作为训练所使用的特征。这些特征在选择前和选择后数值可能会发生变化，也可能不发生变化。但是在特征选择后特征维数肯定比特征选择前低。2.主要方法（三大武器）①Filter（过滤式）：VarianceThreshold②Embedded（嵌入式）：正则化、决策树③Wrapper：包裹式二.sklearn特征选择API1.VarianceThreshold#导入库from sklearn.featu

2022-03-08 09:52:36 1549

原创机器学习-基本概念

机器学习-基本概念一.机器学习人工智能之父——图灵引入了“图灵测试”：如果一台机器与人对话，人不能分辨这是机器还是人，这台机器就通过了图灵测试。人工智能、机器学习、深度学习的关系如下图：随着时代的发展，人工智能遇到了瓶颈，第一个瓶颈是算力瓶颈，第二个瓶颈是数据瓶颈（没有足够的数据），第三个瓶颈是算法瓶颈（算法效率不高）。做人工智能的库和框架如下图所示：1.什么是机器学习机器学习是从数据中自动获得规律（模型），并利用规律对未知数据进行预测。2.为什么需要机器学习①解放生产力——智能客服，

2022-03-07 10:30:01 468

原创数据分析-以买东西数据为例

数据分析-以买东西数据为例首先导入库:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline然后到数数据：df=pd.read_csv('./data/CDNOW_master.txt',header=None,sep='\s+',names=['use_id','order_dt','order_product','order_amount'])df其中header=

2022-03-06 12:54:10 311

原创数据分析-以美国2012大选为例

导入库：import numpy as npimport pandas as pd再导入文件：td=pd.read_csv('./usa_election.txt')td分析数据td.info()分析纯数字的列td.describe()发现有空值，由于保密或者其他原因造成了空值，所以需要用关键字’NOT PR0VIDE’进行填充。td.fillna(value='NOT PR0VIDE',inplace=True)查看文件发现有些’contb_receipt_amt

2022-03-06 10:38:40 201

原创数据分析-人口分析为例

数据分析-人口分析为例import numpy as npimport pandas as pd读文件：abb=pd.read_csv('./data/state-abbrevs.csv')area=pd.read_csv('./data/state-areas.csv')population=pd.read_csv('./data/state-population.csv')合并abb和population：abb_pop=pd.merge(abb,population,left

2022-03-04 10:48:18 203

原创数据分析——股票为例

数据分析——股票为例import pandas as pdimport numpy as npimport tushare as ts其中的tushare为第三方库，专门为了处理股票数据而开发的。首先导入茅台的股票数据，茅台的股票代码为600519td=ts.get_k_data(code='600519',start='2000-01-01')将获得的股票代码存入csv文件td.to_csv('maotai.csv',index=False)查看数据：td.head()查看每一

2022-03-04 09:50:40 802

原创机器学习、深度学习中的优化问题

机器学习、深度学习中的优化问题一.最速下降法二.共轭梯度法共轭梯度法是最速下降法的改进方法，由于最速下降法可能前一次梯度下降与后一次梯度下降会产生冲突，后一次梯度下降抵消了一部分前一次梯度下降的成果。所以，产生了共轭梯度法。共轭梯度法中的每一次梯度下降都与前面的每一次梯度下降共轭，所以共轭梯度法没有无效的梯度下降。三.牛顿法牛顿法每一次迭代都会使用到Hessian矩阵，计算量大，所以产生了牛顿法的改进方法拟牛顿法四.拟牛顿法拟牛顿法的基本思想如下。首先构造目标函数在当前迭代的二

2022-03-03 08:56:16 366