- 博客(7)
- 收藏
- 关注
原创 Python数据科学|第一章:数据科学家的武器库
本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。本书共19章(Python环境安装和Python基础语法法本系列教程不做讲解),内容较多,旨在学习和记录。但惶恐自身能力有限,未及原书三分,故征得原书作者同意,才敢动笔。 1.1 数据...
2018-07-30 17:24:00 332 1
原创 (7月30号开班)Python爬虫小分队和数据分析小分队招募
2018,躁动起来 之前已经开展了五期爬虫小分队,课程的形式:视频+打卡+集中答疑,很受学员的喜欢,也有很多粉丝问下一期的开班时间,今年开学就去了苏大联培,一直没有时间去弄。 之前的模式不错,但也存在这一些问题: 视频不统一,由多个老师录制,讲解方式不一 视频为百度云链接,不安全 针对这一些问题,我们从新开发,并朝全栈进发,那我们看下这次课程的内容...
2018-07-15 19:40:00 175
原创 sklearn调包侠之K-Means
K-Means算法 k-均值算法(K-Means算法)是一种典型的无监督机器学习算法,用来解决聚类问题。 算法流程 K-Means聚类首先随机确定 K 个初始点作为质心(这也是K-Means聚类的一个问题,这个K值的不合理选择会使得模型不适应和解释性差)。然后将数据集中的每个点分配到一个簇中, 具体来讲,就是为每个点找到距其最近的质心(这里算...
2018-07-08 09:48:00 1131
原创 sklearn调包侠之PCA降维
PCA PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。 实战——人脸识别 数据导入 该数据集可通过sklearn进行下载。数据集总共包含40位人员的照片,每个人10张照片。通过fetch_olivetti_faces方法下载的图片,进行了处理,人脸会居中,并裁剪为64*64大小。 %mat...
2018-07-06 08:06:00 583 2
原创 sklearn调包侠之支持向量机
算法原理 对于支持向量机原理,可参考该系列博客(https://www.cnblogs.com/pinard/p/6111471.html)。 实战——乳腺癌检测 数据导入 本次实战使用前文中的乳腺癌数据集,如图所示。 from sklearn.datasets import load_breast_cancer cancer = load_...
2018-07-04 10:31:00 418
原创 sklearn调包侠之朴素贝叶斯
文档处理 朴素贝叶斯算法常用于文档的分类问题上,但计算机是不能直接理解文档内容的,怎么把文档内容转换为计算机可以计算的数字,这是自然语言处理(NLP)中很重要的内容。 TF-IDF方法 今天我们简单讲解TF-IDF方法,将文本数据转换为数字。TF-IDF是一个统计方法,用来评估单个单词在文档中的重要程度。 TF表示词频,对一个文档而言,词频就...
2018-07-03 15:16:00 485
原创 sklearn调包侠之决策树算法
决策树原理 之前我们详细讲解过决策树的原理,详细内容可以参考该链接(https://www.jianshu.com/p/0dd283516cbe)。 改进算法 但使用信息增益作为特征选择指标(ID3算法)容易造成过拟合。举一个简单例子,每个类别如果都有一个唯一ID,通过ID这个特征就可以简单分类,但这并不是有效的。为了解决这个问题,有了C4....
2018-07-01 08:41:00 755
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人