Pyhon
Jack_Can
To Be Better!
展开
-
Windows锁屏壁纸下载
Windows锁屏壁纸下载工具原创 2024-05-11 12:26:58 · 490 阅读 · 0 评论 -
Kaggle-小技巧
Tutorial on reading large datasetshttps://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets这篇Kaggle分享是关于读取大量数据的各种方式:Pandas、Dask、Datatable、Rapids;以及读取的各种数据格式对速度的影响:csv、feather、hdf5、jay、parquet、pickle。...转载 2020-10-22 23:42:42 · 166 阅读 · 0 评论 -
argparse简要用法总结
转载:argparse简要用法总结官方文档:https://docs.python.org/3/library/argparse.html转载 2020-09-14 15:01:06 · 121 阅读 · 0 评论 -
第10章 K-Means(K-均值)聚类算法
聚类聚类,简单来说,就是将一个庞杂数据集中具有相似特征的数据自动归类到一起,称为一个簇,簇内的对象越相似,聚类的效果越好。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。聚类与分类最大的区别就是分类的目标事先已知,例如猫狗识别,你在分类之前已经预先知道要将它分为猫、狗两个种类;而在你聚类之前,你对你的目标是未知的,同样以动物为例,对于一个动物集来说,你并不清楚这个数据集内部有多少种类的动物,你能做的只是利用聚类方法将它自动按照特征分为多类,然后人为给出这个转载 2020-06-02 21:29:07 · 1466 阅读 · 0 评论 -
第9章 树回归
树回归 概述我们本章介绍 CART(Classification And Regression Trees, 分类回归树) 的树构建算法。该算法既可以用于分类还可以用于回归。树回归 场景我们在第 8 章中介绍了线性回归的一些强大的方法,但这些方法创建的模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份转载 2020-06-02 21:27:44 · 420 阅读 · 0 评论 -
第8章 预测数值型数据:回归
回归(Regression) 概述我们前边提到的分类的目标变量是标称型数据,而回归则是对连续型的数据做出处理,回归的目的是预测数值型数据的目标值。回归 场景回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。假如你想要预测兰博基尼跑车的功率大小,可能会这样计算:HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio这就是所谓的 回归方程(regression equation),其转载 2020-06-02 21:26:29 · 1807 阅读 · 0 评论 -
第七章 集成方法-随机森林和AdaBoost
集成方法: ensemble method(元算法: meta algorithm) 概述概念:是对其他算法进行组合的一种形式。通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想。集成方法:投票选举(bagging: 自举汇聚法 bootstrap aggregating): 是基于数据随机重抽样分类器构造的方法再学习(boosting): 是基于所有分类器的加权求和的方法集成方法 场景转载 2020-06-02 21:24:44 · 720 阅读 · 0 评论 -
第4章 朴素贝叶斯
朴素贝叶斯 概述贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。贝叶斯理论 & 条件概率贝叶斯理论我们现在有一个数据集,它由两类数据组成,数据分布如下图所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X6Vn6Rmq-1591018468610)(http://data.apachecn.org/img/转载 2020-06-01 21:36:05 · 313 阅读 · 0 评论 -
第5章 Logistic回归
Logistic 回归 概述Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。须知概念Sigmoid 函数回归 概念假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。进而可以得到对这些点的拟合直线方程,那么我们根据这个回归方程,怎么进行分类呢?请看下面。二值型输出分类函数我们想要的函数应该是: 能接受所有转载 2020-06-01 21:32:37 · 733 阅读 · 0 评论 -
第4章 朴素贝叶斯
朴素贝叶斯 概述贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。贝叶斯理论 & 条件概率贝叶斯理论我们现在有一个数据集,它由两类数据组成,数据分布如下图所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R4OXJfTi-1591018130797)(http://data.apachecn.org/img/转载 2020-06-01 21:30:19 · 195 阅读 · 0 评论 -
第3章 决策树
决策树 概述决策树(Decision Tree)算法是一种基本的分类与回归方法,是最经常使用的数据挖掘算法之一。我们这章节只讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习通常包括 3 个步骤:特征选择、决策树的生成和决策树的修剪。决策树 场景一个叫做 “二十个问题” 的游戏,游戏的规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只转载 2020-06-01 21:27:25 · 513 阅读 · 0 评论 -
第2章 k-近邻算法
KNN 概述k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。一句话总结:近朱者赤近墨者黑!k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不具有显式的学习过程。k 近邻算法实际上利用训练数据集对特征向量空间进行划分,并作为其分类转载 2020-05-31 19:29:11 · 1076 阅读 · 0 评论 -
第1章 机器学习基础
第1章 机器学习基础机器学习 概述机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。海量的数据获取有用的信息机器转载 2020-05-31 19:18:47 · 1987 阅读 · 0 评论 -
Pandas学习笔记---001
Pandas学习笔记—001更多博客: MyBlog.1. 数据类型Series:带标签的一维数组DataFrame:带标签的,大小可变的,二维异构表格import numpy as npimport pandas as pd# 生成Seriess = pd.Series([1, 3, 5, np.nan, 6, 8])print(s)0 1.01 3.02 5.03 NaN4 6.05 8.0dtype: float642. 使原创 2020-05-28 21:54:52 · 262 阅读 · 0 评论