- 博客(114)
- 收藏
- 关注
原创 集成学习、Bagging集成原理、随机森林构造过程、随机森林api与案例、boosting集成原理、梯度提升决策树(GBDT)、XGBoost与泰勒展开式
集成学习、Bagging集成原理、随机森林构造过程、随机森林api与案例、boosting集成原理、梯度提升决策树(GBDT)、XGBoost与泰勒展开式,bagging集成与boosting集成的区别
2023-01-16 15:23:25
281
原创 决策树生成、决策树可视化、决策树算法api、泰坦尼克号乘客生存预测案例代码
决策树算法api、决策树生成、决策树可视化、泰坦尼克号乘客生存预测案例代码,graphviz安装及使用DecisionTreeClassifier(criterion=’gini’,max_depth=None,random_state=None)criterion:特征选择标准,"gini"或者"entropy",前者代表基尼系数,后者代表信息增益,默认"gini",即CART算法,min_samples_split:内部节点再划分所需最小样本数,这个值限制了子树继续划分的条件,如果某节点的样本数少
2023-01-07 20:37:59
315
原创 graphviz安装及使用、决策树生成
切换至生成的tree.dot文件所在的data目录下,执行以下命令。勾选添加至当前用户的系统路径,创建桌面图标可选,点击下一步。使用命令dot -version,若显示如下界面则安装成功。在data或bin目录下生成tree.png决策树,如下。使用以下语句生成dot文件。执行tree.dot文件。选择安装位置,下一步。tree.png如下。该网址使用时失效了。
2023-01-07 20:22:22
282
原创 字典特征提取、文本特征提取、jieba分词处理、tf-idf文本特征提取概念及代码实现
字典特征提取、文本特征提取、jieba分词处理、tf-idf文本特征提取概念及代码实现,特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征,特征值化是为了计算机更好的去理解数据
2023-01-06 20:20:54
235
原创 决策树及分类原理与划分依据:信息熵、信息增益、信息增益率、基尼值和基尼指数
决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树熵(Entropy):物理学上是“混乱”程度的量度,系统越有序,熵值越低;系统越混乱或者分散,熵值越高从信息的完整性上进行的描述:当系统的有序状态一致时,**数据越集中的地方熵值越小,数据越分散的地方熵值越大从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低,系统越混乱或者分散,熵值越高1948年香农提出了信息熵(Entro
2022-12-27 23:57:53
598
原创 逻辑回归、激活函数sigmoid、损失及优化、案例代码实现
逻辑回归概念及原理,激活函数sigmoid函数,损失以及优化,逻辑回归API,sklearn.linear_model.LogisticRegression,良/恶性乳腺癌肿瘤分类预测案例代码实现
2022-12-23 21:50:06
348
原创 过拟合与欠拟合原因及解决办法、正则化类别、维灾难、正则化线性模型、岭回归、Lasso 回归、Elastic Net (弹性网络)、岭回归函数及案例使用、sklearn模型的保存和加载
有一系列猫和狗的图片,通过对猫和狗用一些描述性特征如颜色等构造一个分类器对其进行分类,单个颜色特征可能无法得到一个准确的分类器,需加入一些其他特征,随着特征的增加,分类器性能随之增加,即分类准确率更高,但当特征数量达到一定规模后,分类器性能是下降的。线性回归进行训练学习的时候模型会变得复杂,这里就对应前面再说的线性回归的两种关系,非线性关系的数据,也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降。
2022-12-11 14:22:58
173
原创 线性回归函数LinearRegression、随机梯度下降函数SGDRegre使用,波士顿房价预测,sklearn.metrics.mean_squared_error(y_true, y_pred)
线性回归api,LinearRegression,随机梯度下降SGDRegressor,波士顿房价预测,sklearn.metrics.mean_squared_error(y_true, y_pred)均方误差回归损失,FutureWarning: Function load_boston is deprecated; `load_boston` is deprecated in 1.0 and will be removed in 1.2
2022-12-10 11:31:13
219
原创 全梯度下降算法、随机梯度下降算法、小批量梯度下降算法、随机平均梯度下降算法、梯度下降算法总结
全梯度下降算法(FGD)、随机梯度下降算法(SGD)、随机平均梯度下降算法(SAGD)、小批量梯度下降算法(Mini-batch gradient descent,MGD)梯度下降优化算法,动量法、Adagrad、Adadelta、RMSProp、Adam
2022-12-09 10:57:09
643
原创 线性回归线性关系、非线性关系、常见函数导数、损失函数与优化算法、正规方程与单变量函数梯度下降、多变量函数梯度下降
线性回归概念、公式、定义、特点,线性回归的特征与目标的关系分析,线性回归API sklearn.linear_model.LinearRegression(),常见函数导数,损失函数与优化算法,单变量函数梯度下降,多变量函数的梯度下降,什么是线性回归
2022-12-08 14:33:22
427
原创 交叉验证、网格搜索、模型选择与调优、鸢尾花案例增加K值调优与Facebook人造世界签到位置train.csv数据预测代码实现
交叉验证、交叉验证目的,网格搜索,模型选择与调优,鸢尾花案例增加K值调优,Facebook人造世界数据预测sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None),什么是交叉验证和网格搜索,facebook人造世界签到数据下载
2022-12-07 15:57:33
368
原创 特征工程特征预处理归一化与标准化、鸢尾花种类预测代码实现
特征工程目的:把数据转换成机器更容易识别的数据 scikit-learn:提供几个常见的实用程序函数和转换器类,以将原始特征向量更改为更适合下游估计器的表示形式。即通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程特征的单位或大小相差较大,或某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征,故需要进行归一化/标准化处理需要用到一些方法进行无量纲化,归一化:把数据映射到(默认为[0,1])之间,海伦约会数据dating.txt下载
2022-12-06 16:25:01
554
原创 鸢尾花数据种类预测、分析与处理、scikit-learn数据集使用、seaborn作图及数据集的划分
鸢尾花种类预测,scikit-learn中数据集介绍、查看数据分布,seaborn安装,sns.lmplot(x, y)作图、数据集的划分,鸢尾花数据集,鸢尾花数据分析与处理
2022-12-05 17:52:16
919
原创 K邻近算法k值选取以及kd树概念、原理、构建方法、最近邻域搜索和案例分析
k邻近算法k值选择,kd树,kd树的原理,什么是kd树,kd树构造方法,kd树案例分析,kd树的建立构建, 最近邻域的搜索,近似误差,估计误差,kd树如何构建
2022-12-05 11:46:55
444
2
原创 K邻近算法概述、欧式距离、Scikit-learn使用 、kNN邻近算法距离度量、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、余弦距离、汉明距离、杰卡德距离、马氏距离
K-邻近算法概述、KNN实现流程,机器学习流程,欧式距离、Scikit-learn使用K-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5)、kNN邻近算法距离度量、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、余弦距离、汉明距离、杰卡德距离、马氏距离
2022-12-04 16:07:29
527
原创 matplotlib、numpy和pandas综合案例数据分析
2006~2016年1000部最流行的电影数据下载,numpy案例分析演示、matplotlib案例分析演示、pandas案例分析演示、numpy如何使用,matplotlib如何使用,pandas如何使用,IMDB-Movie-Data.csv下载
2022-12-03 15:19:46
350
2
原创 UserWarning: Glyph 30005 (\N{CJK UNIFIED IDEOGRAPH-7535}) missing from current font解决方式方法
UserWarning: Glyph 30005 (\N{CJK UNIFIED IDEOGRAPH-7535}) missing from current font如何解决,UserWarning: Glyph 30005 (\N{CJK UNIFIED IDEOGRAPH-7535}) missing from current font警告原因及解决办法
2022-12-03 13:35:23
255
原创 pandas分组与聚合groupby()函数详解
groupby分组与聚合、分层索引、设置是否包含NaN、排除组键,星巴克零售店铺数据下载,星巴克零售店铺directory.csv数据获取,groupby用法详解,pandas分组与聚合,groupby如何使用
2022-12-02 19:26:41
436
原创 FutureWarning: The default value of numeric_only in DataFrameGroupBy.mean is deprecated解决方法
如何解决FutureWarning: The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function ,警告解决办法
2022-12-02 11:21:28
1632
原创 pandas交叉表与透视表pd.crosstab()和pd.pivot_table()函数详解
pandas中交叉表与透视表,什么是交叉表,什么是透视表pandas.crosstab(index,columns,values=None,rownames=None,colnames=None,aggfunc=None)DataFrame.pivot_table(values=None,index=None,columns=None,aggfunc='mean',fill_value=None,margins=False,dropna=True)
2022-12-01 15:41:00
949
原创 pandas中pd.concat(data, axis=1)数据合并与pd.merge(left, right, how=,on=)的内连接、左连接、右连接和外连接代码演示
pandas中pd.concat([data1, data2], axis=1)实现数据合并,pd.merge(left, right, how='inner', on=None):可以指定按照两组数据的共同键值对合并或者左右各自合并,inner内连接,left左连接,right右连接,outer外连接,什么是内连接、左连接、右连接、外连接,如何合并两组数据
2022-12-01 11:45:01
594
原创 pandas缺失值处理及数据离散化isnull、notnull、dropna、nan、fillna、replace、qcut、value_counts、cut、one-hot编码get_dummies
pandas缺失值处理,pd.isnull(df)或pd.notnull(df),np.any(),np.all(),dropna(),np.nan,fillna(value, inplace=True),df.replace(to_replace=, value=),数据离散化pd.qcut(data, q)、series.value_counts()、pd.cut(data, bins)、one-hot编码pd.get_dummies(data,prefix=None)
2022-11-30 15:56:50
149
原创 pandas中read_csv和to_csv、read_hdf和to_hdf、read_json和to_json函数及其他各类文件的读取与存储
read_csv和to_csv,read_hdf与to_hdf,read_json与to_json,read_fwf,read_html,to_html,Styler.to_latex,read_xml,to_xml,read_clipboard,to_clipboard,read_excel、to_excel,read_excel,read_hdf,to_hdf,read_feather,to_feather,read_parquet,to_parquet,read_spss,read_pi
2022-11-28 22:11:50
513
原创 pandas算术运算、逻辑运算、统计运算describe()函数、统计函数、累计统计函数及自定义函数运算
pandas算术运算,pandas逻辑运算,运算符合&、|、~,运算函数query(expr)、isin(values),统计运算,describe()函数,统计函数count()、sum()、mean()、median()、min()、max()、mode()、abs()、prod()、std()、var()、idxmax()、idxmin(),累计统计函数cumsum()、cummax()、cummin()、cumprod(),自定义运算apply(func, axis=0)
2022-11-26 22:09:44
731
原创 pandas索引操作、赋值操作、排序以及Series排序和DataFrame排序
pandas索引操作、行列索引、loc、iloc、index或columns.get_indexer,pandas赋值操作,pandas排序,DataFrame排序,sort_values(by=, ascending=),sort_index(),pd.DataFrame,pandas基本操作
2022-11-26 14:58:26
902
原创 pandas是什么以及pandas的三种数据结构Series、DataFrame、MultiIndex的创建方式函数代码
什么是pandas,pandas的数据结构,DataFrame创建和属性方法,series创建,pd.Series、series的属性index和values,DataFrame的创建,pd.DataFrame,DataFrame属性方法shape、index、columns、values、T、head(n)、tail(n)、DatatFrame索引的设置、reset_index(drop)、set_index()、multiIndex特性和创建,pd.MultiIndex.from_arrays函数方法
2022-11-25 17:21:41
1001
原创 numpy中ndarray逻辑运算、通用判断函数、np.all()、np.any()、三元运算np.where()、np.logical_and、or、not、统计运算np.median等函数方法使用
numpy逻辑运算,通用判断函数,np.all()、np.any()、三元运算符np.where,np.logical_and、or、np.logical_not使用,统计运算,np.min(a, axis)、np.max(a, axis])、np.median(a, axis)、np.mean(a, axis, dtype)、np.std(a, axis, dtype)、np.var(a, axis, dtype)、np.argmax(temp, axis=0或1)、np.argmin(a, axis)
2022-11-24 16:00:59
187
原创 numpy生成0和1数组方法、从已有数组生成新数组方法、生成固定范围内数组、生成随机数组、绘制指定均值和标准差正态分布图、均匀分布图绘制
np.ones、np.ones_like、np.zeros、np.zeros_like、np.array、np.asarray、np.linspace、np.arange、np.logspace、np.random.randn、np.random.normal、np.random.standard_normal、np.random.rand、np.random.randint、np.random.random、np.random.choice、np.random.uniform方法作用解释说明和举例使用
2022-11-24 00:26:09
445
原创 numpy概述、n维数组ndarray属性、数组维数形状、ndarray数组类型
numpy是什么,numpy使用,用ndarray进行存储数组,ndarray优势特点,n维数组-ndarray,ndarray属性,numpy数组维数形状,ndarray数组类型,ndarray.shape、ndarray.ndim、ndarray.size、ndarray.itemsize、ndarray.dtype属性使用
2022-11-23 23:53:56
221
原创 numpy数组索引、数组切片、数组形状修改、数组类型修改和数组去重
numpy数组索引、切片,numpy数组形状修改,ndarray.reshape(shape, order),ndarray.resize(new_shape),ndarray.T,numpy数组类型修改和数组去重,ndarray.astype(type),ndarray.tostring([order])或ndarray.tobytes([order]),np.unique()
2022-11-23 22:14:02
234
原创 jupyter notebook代码自动补全设置、jupyter notebook中Nbextensions扩展安装
jupyter notebook如何设置代码自动补全,jupyter notebook中jupyter_contrib_nbextensions扩展安装,jupyter notebook自动补全代码设置,如何设置jupyter notebook的代码自动补全
2022-11-23 10:49:43
566
原创 Matplotlib绘制折线图、散点图、柱状图、直方图、饼图代码
Matplotlib常见图形绘制,Matplotlib绘制折线图、Matplotlib绘制散点图、Matplotlib绘制柱状图、Matplotlib绘制直方图、Matplotlib绘制饼图代码,Matplotlib绘图函数
2022-11-22 22:00:07
684
原创 Matplotlib用法使用、Matplotlib绘图作图画图
Matplotlib概念定义,Matplotlib绘图/画图/作图,matplotlib用法使用、什么是Matplotlib,Matplotlib常用函数用法,Matplotlib图像添加辅助功能信息,Matplotlib一个坐标系绘制多个图像,Matplotlib多个坐标系绘制多个图像,Matplotlib绘制数学函数图像
2022-11-22 17:35:04
779
原创 conda创建虚拟环境命令、jupyter notebook启动打开和使用
conda创建虚拟环境命令步骤,anaconda创建虚拟环境命令、更换镜像源命令,什么是jupyter notebook,jupyter notebook打开和使用,jupyter notebook中cell单元操作模式及常用快捷键,requirements.txt文件安装库和依赖,jupyter notebook打开方式
2022-11-21 20:17:13
768
原创 redis搭建主从、redis搭建集群、redis中StrictRedis()、RedisCluster()方法与python交互
StrictRedis()方法、pycharm使用StrictRedis方法对string类型的数据进行增删改查,redis主从搭建、redis集群搭建,使用RedisCluster()方法与集群交互实现增删改查、redis主从搭建理解,集群搭建理解、报警告warning:redis-trib.rb is not longer available解决方法
2022-11-19 17:59:07
438
原创 ubuntu中redis客户端与服务端命令、redis数据类型、字符串string、哈希hash、列表list、集合set、有序集合zset操作命令
NoSQL产品种类、NoSQL与SQL区别比较、什么是NoSQL、什么是redis、ubuntu安装redis、windows安装redis、redis客户端与服务端命令、redis中数据类型、redis中字符串string、哈希hash、列表list、集合set、有序集合zset常用命令增加、获取、修改、删除操作
2022-11-17 20:43:06
404
原创 windows下载redis、windows安装redis、windows启动redis
redis下载安装,redis下载安装详细步骤,windows安装redis,redis下载,redis安装,windows安装redis,windows启动redis服务,Redis加入Windows 服务并启动命令步骤
2022-11-17 20:14:19
1161
原创 ubuntu安装和启动redis命令步骤及其配置文件redis.conf
ubuntu安装redis详细步骤图文说明,ubuntu中redis安装命令,redis服务启动命令,redis.conf配置文件核心配置说明,执行sudo make test报错解决办法,tcl安装步骤
2022-11-16 21:53:32
759
原创 正则表达式基本概念及常用匹配模式代码
正则表达式基本概念、re模块、匹配单个字符模式代码、匹配多个字符模式代码、匹配字符串开头和结尾模式代码、匹配分组模式代码、正则表达式常用匹配模式代码,python正则表达式、python中re模块的使用、字符串匹配方法
2022-11-15 21:42:57
291
原创 正则表达式AttributeError: ‘NoneType‘ object has no attribute ‘group‘报错原因及解决办法
正则表达式学习,出现AttributeError: 'NoneType' object has no attribute 'group'错误的原因及解决办法
2022-11-14 22:16:57
327
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人