马╮(╯▽╰)╭霜-CSDN博客

原创 sublime常用快捷键

sublime常用快捷键选中多行多行化成一行注释行操作词操作其他常用操作选中多行ctrl+shift+L 选中多行，光标位于所有行的最后（输入一个，）shift+<- 向左选中移一个字符ctrl+<- 向左移一个单词ctrl+shift±> 向左选中一个单词多行化成一行ctrl+A 全选ctrl+J 多行化成一行注释ctrl+/ 注释当前行ctrl+shift+/ 注释掉所选的所有行行操作ctrl+shift+K 删除一行ctrl+回车添加一行空行词操

2021-01-04 10:38:25 396 1

原创 Linux常用命令（Xshell）

Linux常用命令（Xshell系统信息关机 (系统的关机、重启以及登出 )文件与目录管理文件传输vimhadoop fs系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示CP

2020-12-31 14:31:14 479

原创机器学习——无监督学习

机器学习——无监督学习预处理和缩放降维、特征提取、流形学习主成分分析1、可视化2、特征提取非负矩阵分解用t-SNE进行流行学习在无监督学习中，学习算法只有输入数据，并需要从这些数据中提取知识。本章将研究两种类型的无监督学习：数据集变换与聚类。数据集的无监督变换（unsupervised transformation）是创建数据新的表示的算法，与数据的原始表示相比，新的表示可能更容易被人或其他机器学习算法所理解。无监督变换的一个常见应用是降维（dimensionality reduction），它接受

2020-11-15 14:41:47 909

原创 K-means++算法

K-means++算法Kmeans算法的缺陷Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。从输入的数据点集合中随机选择一个点作为第一个聚类中心对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的

2020-11-14 21:44:21 1926

原创数据挖掘—网格搜索2

数据挖掘—网格搜索21、分析交叉验证的结果2、网格的条件参数3、使用不同的交叉验证策略进行网格搜索（1）传入交叉验证分离器（2）嵌套交叉验证（3）交叉验证与网格搜索并行1、分析交叉验证的结果将交叉验证的结果可视化通常有助于理解模型泛化能力对所搜索参数的依赖关系。由于运行网格搜索的计算成本相当高，所以通常最好从相对比较稀疏且较小的网格开始搜索。然后我们可以检查交叉验证网格搜索的结果，可能也会扩展搜索范围。网格搜索的结果可以在 cv_results_ 属性中找到，它是一个字典，其中保存了搜索的所有内容。你

2020-11-02 21:03:58 769

原创数据挖掘—网格调参GridSearchCV

数据挖掘—网格调参GridSearchCV1、参数2、属性3、常用方法4、实例带交叉验证的网格搜索是一种常用的调参方法，因此 scikit-learn 提供了GridSearchCV 类，它以估计器（estimator）的形式实现了这种方法。要使用 GridSearchCV类，你首先需要用一个字典指定要搜索的参数。然后 GridSearchCV 会执行所有必要的模型拟合。字典的键是我们要调节的参数名称（在构建模型时给出，在这个例子中是 C 和gamma ），字

2020-11-02 14:53:37 2845

原创机器学习算法——监督学习1

机器学习算法模型复杂度与数据集大小的关系需要注意，模型复杂度与训练数据集中输入的变化密切相关：数据集中包含的数据点的变化范围越大，在不发生过拟合的前提下你可以使用的模型就越复杂。通常来说，收集更多的数据点可以有更大的变化范围，所以更大的数据集可以用来建更复杂的模型。但是，仅复制相同的数据点或收集非常相似的数据是无济于事的。收集更多数据，适当构建更复杂的模型，对监督学习任务往往特别有用。本书主要关注固定大小的数据集。在现实世界中，你往往能够决定收集多少数据，这可能比模型调参更为有效。永远不要低估更多数据

2020-10-27 13:58:24 666

原创 Python机器学习基础教程——鸢尾花分类

Python机器学习基础教程——鸢尾花分类初识数据训练数据与测试数据观察数据—数据可视化模型的建立与评估——K近邻算法她还有一些鸢尾花的测量数据，这些花之前已经被植物学专家鉴定为属于 setosa、versicolor 或 virginica 三个品种之一。对于这些测量数据，她可以确定每朵鸢尾花所属的品种。我们假设这位植物学爱好者在野外只会遇到这三种鸢尾花。我们的目标是构建一个机器学习模型，可以从这些已知品种的鸢尾花测量数据中进行学习，从而能够预测新鸢尾花的品种。因为我们有已知品种的鸢尾花的测量数据，所以

2020-10-26 10:47:37 7520

weixin_43212941的博客