不会统计的大河马-CSDN博客

原创 SAS自学（一）介绍、读数据

SAS简介与数据的读取

2023-02-28 11:52:17 944

原创集成学习之Bagging与随机森林（ensemble learning)

集成学习里面的随机森林，用交叉验证来计算随机森林解决决策树的过拟合问题。用随机森林解释普通学习和增量学习的区别，增量学习是新数据训练模型之后，模型仍然记得原来的树。

2022-09-25 20:34:15 1529

原创 Sklearn机器学习——预测明天是否会下雨

探索澳大利亚天气，进行特征工程时对于地点这个特征进行爬虫爬取，使之与气候站的天气进行关联。数据预处理也比较繁琐。后期进行建模对于准确度和recall都进行不断优化。算是难度比较大的一个svm案例。

2022-09-07 23:07:27 5698 6

原创 Sklearn机器学习——ROC曲线、ROC曲线的绘制和AUC面积、运用ROC曲线找到最佳阈值

介绍了如何平衡分类正确率和误判多数变成小数的成本的一个图像，ROC曲线（横坐标是假正率，纵坐标是Recall)。AUC曲线面积越大越好。

2022-09-03 18:57:32 14873

原创 Sklearn机器学习——样本不平衡问题解决、精确率、召回率、ROC曲线

介绍样本分类不平衡问题的解决办法，以及SVC的六个模型评价指标，ROC曲线。

2022-09-01 23:36:45 7004

原创机器学习Sklearn——核函数参数的选取、硬间隔和软间隔、重要参数C

介绍四个核函数的参数如何选取，运用学习曲线和网格搜索进行调参。介绍了硬间隔和软间隔的概念，并在数据不完全线性可分，介绍了松弛变量里面的惩罚系数C。在乳腺癌数据案例中找到rbf最适合的两个参数...

2022-08-31 19:38:04 2381

原创机器学习Sklearn——核函数、核函数在不同数据集上的表现、核函数的优势和缺点

介绍核函数的不同类型、核函数在不同数据集上的表现，在rbf上表现最好。以及核函数的缺点，提醒我们需要将数据进行统一量纲处理。

2022-08-29 22:06:45 4671 1

原创机器学习Sklearn——SVM支持向量机（基础理论、决策过程可视化)

手撕SVM损失函数的求解，有拉格朗日乘子法、对偶问题、KKT条件，将使用SVM进行决策过程可视化从线性的推广到非线性的3D图中。

2022-08-25 20:01:44 3902

原创机器学习Sklearn——红酒分类案例详解决策树模型参数

比较细节得讲了决策树的六个参数，一个重要参数，两个随机参数和三个剪枝参数，以及决策树如何让将这个图片导出来。

2022-08-24 17:33:41 5740

原创深度学习课程笔记——回归、精灵宝可梦案例

本文介绍深度学习中回归案例，通过计算进化后的精灵宝可梦的武力值进行线性回归，从最简单的一次回归模型不断优化成带有条件函数的二次模型，模型评价详细介绍了MLS的解决办法（梯度下降）和过拟合解决办法（正则化）。

2022-08-21 15:32:44 974

原创机器学习基础——模型的加载和保持、逻辑回归

介绍了逻辑回归这个解决二分类模型的判别模型，用癌症分类问题进行了案例分析，温习了估计其流程以及召回率。并最后阐明了模型的优缺点以及与朴素贝叶斯这个生成模型的区别。

2022-08-19 21:43:32 1284

原创机器学习基础——线性回归、过拟合和欠拟合、岭回归和Lasso回归

介绍了非监督学习里面的回归算法的定义，并用波士顿房价的例子进行线性回归，将两种解法（梯度下降法和正规方程法）进行对比，运用均方误差和进行模型评估。还介绍了过拟合和欠拟合以及他们的解决办法（岭回归和Lasso回归）。.........

2022-08-17 21:29:07 2594 1

原创机器学习基础——分类算法之决策树、随机森林、Titanic乘客生存分类

对于决策树和随机森林两个模块进行介绍，用kaggle里面的泰坦尼克号数据集预测生存分类进而巩固算法。随机森林对于相同的数据集进行运算准确率更高，普适性更强。

2022-08-16 15:52:46 1818

原创机器学习基础——分类算法之朴素贝叶斯算法（Bayes)、分类模型评估、选择和调优

介绍了运用贝叶斯算法进行分类，他的基本概念、进行文本分类案例，进行优缺点的评估。以及分类模型地方调参技巧（网格搜索）以及交叉验证，并在实例中进行检验

2022-08-13 22:19:43 4038

原创机器学习基础——分类算法之K近邻算法（KNN)、预测facebook签到位置案例

机器学习里面的knn算法，比较细节得分析了一个 kaggle上面的完整案例，包括处理数据、拟合模型和测试模型，计算准确率等。

2022-08-12 22:10:36 1434

原创机器学习基础——数据集的划分、转换器和估计器

在sklearn包里面学会一些数据集（鸢尾花、糖尿病、伦敦房价）以及如何split这些数据集为train data和test data ;介绍了处理数据的transformer和算法的接口以及非监督学习的步骤，为后续做回归以及分类打基础......

2022-08-11 20:55:16 468

原创研究用户对物品类别的喜好细分降维——PCA（主成分分析）

可以用scikit-learn包来直接调用主成分分析PCA，除了透视表pivot_table()之后，pd.crosstab()透视表。还通过实例介绍了表合并的技巧。

2022-08-10 21:28:02 758 1

原创 DataFrame基础操作巩固——项目需求

用户消费行为分析，增加了透视表、map、applymap和apply函数的区分还有一些数据分析的思路，融合了画散点图、直方图和折线图，增加了匿名函数和def函数

2022-08-08 21:01:28 448 1

原创 Dataframe基础操作巩固——美国大选献金项目

对于美国总统大选的数据进行分析，看看美国几个党派，根据政治献金来判断谁有可能做总统。

2022-08-07 16:59:50 280

原创 DataFrame基础操作巩固——人口分析案例

对于人口进行案例数据分析，运用pandas将dataframe里面的人口数据进行处理分析

2022-08-03 21:22:13 617

原创 DataFrame基础操作巩固——股票分析（二）

本文继续分析茅台酒股票的数据，增加专业名词双均线和金叉、死叉的判断，运用python语言进行画图书写

2022-08-02 18:41:50 711

原创 DataFrame基础操作巩固——股票分析(一）

中国股票排名第一的茅台酒的股票数据分析案例，比较细节

2022-08-01 22:16:49 1218

原创数据科学库案例——PM2.5案例

介绍pd.PeriodIndex()函数将时间转换成pandas里需要的时间格式，运用中国和美国PM2.5对比的案例，温习了matplotlib和降采样

2022-07-28 19:22:03 783

原创数据科学库案例——统计911紧急电话不同类型次数(二）

通过911紧急电话的案例介绍了时间序列的两个函数，以及处理不同月份电话类别次数。

2022-07-26 22:26:18 625

原创数据科学库案例——统计911紧急电话不同类型次数(一)

在实例中运用一些数据分析库的知识，对于911紧急电话的数据，我们用两种方法进行分类并统计

2022-07-26 20:11:51 226

原创 pandas基本用法（一）之Series和Dataframe区别、切片和索引、字符串使用方法

pandas基本用法（一）之Series和Dataframe区别、切片和索引、字符串使用方法

2022-07-25 13:48:15 2335 1

原创 numpy的基本用法（三）数组的拼接、特殊数组、nan和inf

数组的裁剪拼接、特殊数组（随机数组、零数组、一数组）、nan和inf用法及例子

2022-07-20 22:29:08 359

原创 numpy的基本用法（二）数据的读取、转置、切片、索引

本文主要介绍数据的读取、转置、切片、索引

2022-07-19 22:36:05 771

原创基于密度的DBSCAN聚类及其优化的OPTICS聚类（二）

本文主要针对DBSCAN聚类算法只能采用全局表征密度参数的缺陷引入了优化的OPTICS算法、将两算法处理密度相同、不同数据进行对比，最后介绍两者可以优势互补进行结合，帮助选取最优的距离参数。...

2022-07-19 15:52:18 1696

原创 numpy的基本用法（一）数组的创建，改维和计算

numpy数组的创建、计算和改变维数，一些简单的入门方法，但讲得比较细节，与大家共勉

2022-07-18 21:21:51 791

原创基于密度的DBSCAN聚类及其优化的OPTICS聚类（一）

聚类分析中基于密度的DBSCAN聚类算法可以生成形状多样的类，并且可以检测出异常值和噪声点。但是对于输入参数敏感，如何提高DBSCAN聚类结果的准确性和可信度，是一个值得研究的趋势和方向。..................

2022-05-12 10:47:11 1382

原创机器学习——聚类算法简单汇总

详细介绍了聚类分析的分类以及优缺点

2022-05-12 10:19:05 1799

原创 matplotlib之绘制折线图、条形图、直方图

matplotlib的各种用法，绘制折线图、柱状图、各种图，活活一雅思小作文题库

2022-04-09 21:08:01 1347

qq_47250064的博客