咖哥-CSDN博客

原创史上最易懂——一文详解线性回归算法的纯Python实现

本文详细拆解了线性回归算法的纯Python实现，并不调用任何线性回归函数库。用浅显易懂的方法介绍一些机器学习相关的入门内容和基础算法。

2021-03-12 19:24:44 1568

原创机器学习内卷了吗？

机器学习内卷了吗？一本优秀的机器学习入门书籍《零基础学机器学习》的创作手记。

2020-12-25 18:36:00 896

原创新书上市第13天，在亚马逊Kindle电子书人工智能榜第三，与《未来简史》和李开复《人工智能》同榜

如题，我的《零基础学机器学习》排在尤瓦尔赫拉利《未来简史》和李航《统计学习方法》之后，排在李开复《人工智能》之前。话说，岌岌无名的我，正是因为读了《未来简史》这本书，才开始投入人工智能技术的学习。可以说，没有未来简史。就没有我的这本《零基础学机器学习》。购书链接：京东：https://item.jd.com/12763913.html当当：http://product.dangdang.com/29159728.html能够与前辈大师同榜数日，无憾矣！！！...

2020-12-14 15:58:45 1908 2

原创集成学习精讲01 - SAP大神黄佳新作《零基础学机器学习》节选

集成学习(ensemble learning)，是通过构建出多个模型(这些模型可以是比较弱的模型)，然后将它们组合起来完成任务。名字听起来比较高大上，但它其实是很经典的机器学习方法了。在深度学习时代，集成学习仍然具有很高的江湖地位。它的核心策略是通过模型的集成减少机器学习中的方差(variance)和偏差(bias)。我们将分为5篇文章介绍集成学习，分别是： 1. 偏差和方差 2. Bagging 3. Boosting 4. Stacking/Blending 5. Voting/Avera

2020-11-28 11:49:09 3125 2

原创 ChatGPT原理与技术演进剖析

— 要抓住一个风口，你得先了解这个风口的内核究竟是什么。ChatGPT相关文章已经铺天盖地，剖析（现阶段或者只能说揣测）其底层原理的优秀文章也已经出现，让我们一窥究竟。

2023-02-19 23:33:26 4451

原创 scikit-learn算法精讲之层次聚类和树状图

层次聚类（Hierarchical Clustering）是聚类算法的一族算法的总称，它通过连续合并或拆分聚类来构建嵌套聚类。这种聚类的层次结构就像树一样，树的根是收集所有样本的唯一簇，叶子是只有一个样本的簇。上图中，树根聚类就是abcdef，叶子聚类就是每一个字母的节点。在scikit-learn中，层次聚类可以通过AgglomerativeClustering对象来实现。这个算法使用自下而上的方法执行层次聚类：每次都从其自己的聚类开始，然后将聚类连续合并在一起。

2022-08-24 17:09:08 4340

原创用VS Code写Jupyter Notebook的好处

以前都是用Anaconda 3中自带的Jupyter Notebook写Notebook，今天尝试使用VS Code，马上发现了一些好处。这第一个好处就是Terminal中自带有一个选项卡——JUPYTER VARIABLES，里面直接显示了Notebook中所有变量的值，这样就不需要费力气用Print语句一个一个打印出来看每一个变量的值了。比如下面图中的img变量。双击想要详细看的变量，比如说一个dataframe数据集，还可以打开数据查看器看整个数据对象表中的内容呢。还可以切分，filter等操作

2021-11-17 12:57:15 1581

原创欢迎大家参加阿里云天池牛年读书会

欢迎大家参加阿里云天池牛年读书会AI领域热门书籍，大咖专业解读，沉浸式案例实践+训练营学习，还可以邀朋友一起瓜分10万张天池粮票粮票换礼品

2021-03-06 11:37:46 282

原创调参太费力？自动化机器学习（AutoML）来了！

特征工程的麻烦，参数调优之苦恼，资深的机器学习调包侠和炼丹师们一定早有体会。但是机器学习模型的部署过程难度何在呢？主要在于算法需要针对每个不同的实际场景进行配置和调整，因此经常变动，这使得部署过程也非常耗费人工，效率不高且容易出错。有时候会因为赶时间，过早将模型从实验阶段转移到生产阶段，导致它们发挥不出最佳效果；也有时会因为花了太多时间进行参数调优导致部署延迟。

2021-01-29 00:31:20 1046

原创干货！如何快速选择Sklearn机器学习模型!

不过，解决机器学习问题的最难的部分，其实不是缺乏工具，而是如何为具体项目找到合适的机器学习模型。如何快速选择Sklearn机器学习模型，我们给你答案。

2020-12-28 15:25:51 1785

原创用随机森林预测客户是否会流失

这篇文章中，我们将通过集成学习家族中的重要武器——**随机森林算法**来预测银行客户是否会流失。该项目的具体需求是根据已知的一批客户数据来预测某个银行的客户是否会流失。通过学习历史数据，如果机器能够判断出哪些客户很有可能在未来两年内结束在该银行的业务（这当然是银行所不希望看到的），那么银行的工作人员就可以采取相应的、有针对性的措施来挽留这些高流失风险的客户。其实这个问题本质上是二分类问题，我们看看如何用随机森林来解决这类问题有何优势。

2020-12-13 11:43:02 2565 3

原创集成学习精讲之Stacking和Blending（附源代码）

集成学习，分为两大类。如果基模型都是通过一个基础算法生成的同类型的学习器，这叫同质集成。有同质集成就有异质集成，就是把不同类型的算法集成在一起。—— Stacking 和 Blending，就是两种异质集成学习方法。

2020-12-05 15:49:20 2097

原创集成学习精讲之Boosting - SAP大神黄佳新作《零基础学机器学习》节选

Boosting的意思就是提升，这是一族通过训练弱学习模型的肌肉将其提升为强学习模型的算法。要想在机器学习竞赛中追求卓越，Boosting是一种必须的存在。这是一个属于高手的技术。

2020-12-05 13:38:34 1319

原创集成学习精讲02 - Bagging方法：多个基模型的聚合（SAP大神黄佳新作《零基础学机器学习》节选）

Bagging是我们要讲的第一种集成学习方法，是Bootstrap Aggregating的缩写。有人把它翻译为套袋法，装袋法，或者自助聚合，没有个统一的叫法，那就直接用它的英文名称。其算法的基本思想是从原始的数据集中抽取数据，形成k个随机的新训练集，然后训练出k个不同的模型。这是5篇文章中的第二篇： 1. 集成学习集成知识：偏差和方差 2. Bagging 3. Boosting 4. Stacking/Blending 5. Voting/Averaging

2020-11-28 13:00:19 2855 4

原创 AWS组件详解4——EC2之添加EBS存储卷

这是本系列文章的第4篇，上一篇EC2实例类型，请戳这里。作者黄佳在步骤4，“添加存储”这个环节，我们主要需要了解的是EC2的最佳拍档——EBS卷。Amazon EBS （Amazon Elastic Block Store）卷和EC2啥关系？它是附加给EC2实例的存储设备，你把它想象成你个人电脑上的C盘、D盘就可以了。EBS 卷用可以用作需要频繁更新的数据的主存储 (如实例的系统驱动器或数据库应用程序的存储)，还可以将它们用于执行连续磁盘扫描的吞吐量密集型应用程序。可以在这些卷上创建文件系统，或以任

2020-05-21 22:10:07 2711

原创 AWS组件详解3——EC2之配置实例详细信息

在启动EC2的第三步中，会出现非常多的配置选项，比如说设定要启动的实例个数、实例是预留实例还是竞价实例（这将决定实例的具体价格）、以及网络设置选项等等。这些选项，对于了解EC2的功能和应用都非常重要，也是AWS灵活性的体现。

2020-05-20 20:58:41 9066

原创 AWS组件详解2——EC2之简说EC2实例类型

EC2的实例类型，直接决定着未来云服务器的算力大小，以支持不同的用途。从T系列和M 系列的通用型实例，到C系列的计算优化型实例，到内存和存储优化型实例，直至支持GPU的加速计算实例，其性能差异巨大，价格也可以从有的一天仅仅几分钱（美元）到有的一小时就几块钱（美元）。

2020-05-20 14:37:18 6027

原创 AWS组件详解1——EC2之启动实例，选择AMI

EC2全称是亚马逊弹性计算云（Amazon Elastic Compute Cloud），在AWS整个云计算体系中，它负责提供的是安全而且可以随时启用并且自动调整大小的计算能力。

2020-05-19 23:12:07 5051

原创老板怒了，我抑郁了——程序员也应培养共情力！

一个故事前几天和老板（后面称为A）大吵一架，整个人几乎陷入抑郁。起因不过是我作为团队负责人，经手将一个已经干了好几年的程序员（后面称为B）从合同制转为正式编制。在具体的分级问题上，我认为应保持其现有薪水，定位为9级。而我的直接上级A则认为根据她所干的活，应该将B确定为8级（但是她目前的薪水已经超过公司8级员工的最高薪酬，所以定为8级会降薪）。所以在这个问题上，我与A持不同意见，各不相让。有人可能问了：你老板说定为8级，难道你还有什么可争的？这种行政方面的事情，难道不是老板说了算？现实并没有所描述的这

2020-05-18 23:41:59 817 1

原创 10分钟建个人网站 - Amazon Lightsail

终于决定开始创建自己的个人网站。我在这方面的经验和知识，几乎为零。因此。还是主要靠Google和别人的文章做指导。鼓捣了一会儿，成功了，为各位朋友总结一下。也算是我的第一篇博文。目标：建一个非常简单的，朴素的个人站点。最主要的是博客功能。（当然将来能够加入一些广告链接赚银子或者被打赏就完美了。）经过调研（调查和研究）发现，建站不简单也不难，主要是：申请（购买）一个个人域名。找到一个服务器，Host你的网站的内容，也就是页面。配置服务器，搭建网站。前两步简单，最后一步水就很深了。我没经验，但是

2020-05-17 12:23:58 2753

原创机器学习项目实战五部曲

机器学习项目实战-五部曲（之一）第一环：问题的构建和概念化李宏毅老师曾用大象装进冰箱来比喻机器学习。大象怎么装进冰箱？3个步骤：打开冰箱门、放进去、关门。机器学习也就是个三部曲：选择函数模型，评估函数的优劣，确定最优的函数。这个比喻非常精彩，但它主要聚焦于“建模”过程，未强调机器学习项目其他环节。机器学习项目的实际流程要更复杂一些。大致分为：1. 问题的定义2. 数据准备和特征工程3. 模型(算法)的选择4. 机器学习(训练机器的过程)5. 评估和性能优化这5个阶段。每一步的处理是否得当，都

2020-05-15 16:29:10 1597

JackyHuang79的博客