- 博客(25)
- 收藏
- 关注
原创 随机森林在乳腺癌数据上的调参
随机森林在乳腺癌数据上的调参from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport p
2022-04-10 23:28:03 143
原创 泰坦尼克幸存者预测
泰坦尼克幸存者预测import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot
2022-04-06 22:03:31 194
原创 pytorch-手写数字识别
pytorch-手写数字识别导入工具函数import torchfrom matplotlib import pyplot as pltdef plot_curve(data): fig = plt.figure() plt.plot(range(len(data)), data, color='blue') plt.legend(['value'], loc='upper right') plt.xlabel('step') plt.ylabel
2022-03-18 09:53:00 101
原创 sklearn-线性回归、岭回归、逻辑回归、聚类
sklearn-线性回归、岭回归、逻辑回归、聚类一.线性回归1.概念试图学得一个通过属性的线性组合来进行预测的函数:f(x)=w_1x_1+w_2x_2+…+w_dx_d+bw为权重,b称为偏置项,可以理解为:w_0×1比如:期末成绩:0.7×考试成绩+0.3×平时成绩西瓜好坏:0.2×色泽+0.5×根蒂+0.3×敲声注意:预测结果与真实值是有一定的误差2.损失函数①最小二乘法之正规方程②梯度下降例子:α为学习速率,需要手动指定,表示方向。理解:沿着这个函数下
2022-03-16 09:18:09 193
原创 sklearn分类算法-决策树、随机森林
sklearn分类算法-决策树、随机森林一.决策树1.概念决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法比如:你母亲要给你介绍男朋友,是这么来对话的:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。2.计算例子银行贷款数据①引申-信息熵假如32支球队中猜测最后的总冠军,
2022-03-15 09:03:25 448
原创 sklearn——K近邻算法及朴素贝叶斯
sklearn——K近邻算法及朴素贝叶斯一.K近邻算法1.原理定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法K近邻的核心算法:两个样本的距离可以通过如下公式计算,又叫欧式距离比如说,a(a1,a2,a3),b(b1,b2,b3)2.sklearn API①代码from sklearn.neighbors import KNeighborsClassif
2022-03-14 11:26:51 686
原创 sklearn——数据降维
sklearn——数据一.特征选择1.特征选择是什么特征选择就是单纯地从所有特征中选择一部分特征作为训练所使用的特征。这些特征在选择前和选择后数值可能会发生变化,也可能不发生变化。但是在特征选择后特征维数肯定比特征选择前低。2.主要方法(三大武器)①Filter(过滤式):VarianceThreshold②Embedded(嵌入式):正则化、决策树③Wrapper:包裹式二.sklearn特征选择API1.VarianceThreshold#导入库from sklearn.featu
2022-03-08 09:52:36 1515
原创 机器学习-基本概念
机器学习-基本概念一.机器学习人工智能之父——图灵引入了“图灵测试”:如果一台机器与人对话,人不能分辨这是机器还是人,这台机器就通过了图灵测试。人工智能、机器学习、深度学习的关系如下图:随着时代的发展,人工智能遇到了瓶颈,第一个瓶颈是算力瓶颈,第二个瓶颈是数据瓶颈(没有足够的数据),第三个瓶颈是算法瓶颈(算法效率不高)。做人工智能的库和框架如下图所示:1.什么是机器学习机器学习是从数据中自动获得规律(模型),并利用规律对未知数据进行预测。2.为什么需要机器学习①解放生产力——智能客服,
2022-03-07 10:30:01 436
原创 数据分析-以买东西数据为例
数据分析-以买东西数据为例首先导入库:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline然后到数数据:df=pd.read_csv('./data/CDNOW_master.txt',header=None,sep='\s+',names=['use_id','order_dt','order_product','order_amount'])df其中header=
2022-03-06 12:54:10 280
原创 数据分析-以美国2012大选为例
导入库:import numpy as npimport pandas as pd再导入文件:td=pd.read_csv('./usa_election.txt')td分析数据td.info()分析纯数字的列td.describe()发现有空值,由于保密或者其他原因造成了空值,所以需要用关键字’NOT PR0VIDE’进行填充。td.fillna(value='NOT PR0VIDE',inplace=True)查看文件发现有些’contb_receipt_amt
2022-03-06 10:38:40 176
原创 数据分析-人口分析为例
数据分析-人口分析为例import numpy as npimport pandas as pd读文件:abb=pd.read_csv('./data/state-abbrevs.csv')area=pd.read_csv('./data/state-areas.csv')population=pd.read_csv('./data/state-population.csv')合并abb和population:abb_pop=pd.merge(abb,population,left
2022-03-04 10:48:18 161
原创 数据分析——股票为例
数据分析——股票为例import pandas as pdimport numpy as npimport tushare as ts其中的tushare为第三方库,专门为了处理股票数据而开发的。首先导入茅台的股票数据,茅台的股票代码为600519td=ts.get_k_data(code='600519',start='2000-01-01')将获得的股票代码存入csv文件td.to_csv('maotai.csv',index=False)查看数据:td.head()查看每一
2022-03-04 09:50:40 733
原创 机器学习、深度学习中的优化问题
机器学习、深度学习中的优化问题一.最速下降法二.共轭梯度法共轭梯度法是最速下降法的改进方法,由于最速下降法可能前一次梯度下降与后一次梯度下降会产生冲突,后一次梯度下降抵消了一部分前一次梯度下降的成果。所以,产生了共轭梯度法。共轭梯度法中的每一次梯度下降都与前面的每一次梯度下降共轭,所以共轭梯度法没有无效的梯度下降。三.牛顿法牛顿法每一次迭代都会使用到Hessian矩阵,计算量大,所以产生了牛顿法的改进方法拟牛顿法四.拟牛顿法拟牛顿法的基本思想如下。首先构造目标函数在当前迭代 的二
2022-03-03 08:56:16 341
原创 机器学习、深度学习中的概率论
机器学习、深度学习中的概率论一.贝叶斯定理二.期望、方差、条件数学期望1.期望2.方差3.协方差三.大数定律四.中心极限定理五.统计学基本概念六.极大似然估计七.最大后验估计八.蒙特卡洛方法九.Bootstrap方法十.EM算法...
2022-03-02 09:17:08 520
原创 线性代数(关于机器学习、深度学习)
线性代数(关于机器学习、深度学习)一.向量、矩阵、张量向量:一维的矩阵:二维的张量:三维及三维以上二.向量与矩阵运算1.向量运算2.范数3.矩阵运算三.矩阵的逆和伪逆1.逆2.伪逆四.行列式五.二次型与正定性六.矩阵的分解LU分解QR分解...
2022-02-24 19:48:40 632
原创 多元函数总结
多元函数一.多元函数函数中含有多个变量的函数叫多元函数。二.偏导数三.方向导数四.可微五.链式法则六.Hassian矩阵七.拉格朗日乘数法
2022-02-22 20:43:51 1645
原创 python基本数据类型
**第一天 python的学习**基本数据类型1.数字----->int,flort2.布尔值----->bool类3.字符串----->str类4.列表----->list类5.元组----->tuple类6.字典----->dict类7.集合------>set类...
2019-12-11 17:48:37 120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人