自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

罗罗攀

Python编程语言,工作学习,读书电影,分享生活的点点滴滴~

  • 博客(7)
  • 收藏
  • 关注

原创 Python数据科学|第一章:数据科学家的武器库

本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。本书共19章(Python环境安装和Python基础语法法本系列教程不做讲解),内容较多,旨在学习和记录。但惶恐自身能力有限,未及原书三分,故征得原书作者同意,才敢动笔。 1.1 数据...

2018-07-30 17:24:00 332 1

原创 (7月30号开班)Python爬虫小分队和数据分析小分队招募

2018,躁动起来 之前已经开展了五期爬虫小分队,课程的形式:视频+打卡+集中答疑,很受学员的喜欢,也有很多粉丝问下一期的开班时间,今年开学就去了苏大联培,一直没有时间去弄。 之前的模式不错,但也存在这一些问题: 视频不统一,由多个老师录制,讲解方式不一 视频为百度云链接,不安全 针对这一些问题,我们从新开发,并朝全栈进发,那我们看下这次课程的内容...

2018-07-15 19:40:00 175

原创 sklearn调包侠之K-Means

K-Means算法 k-均值算法(K-Means算法)是一种典型的无监督机器学习算法,用来解决聚类问题。 算法流程 K-Means聚类首先随机确定 K 个初始点作为质心(这也是K-Means聚类的一个问题,这个K值的不合理选择会使得模型不适应和解释性差)。然后将数据集中的每个点分配到一个簇中, 具体来讲,就是为每个点找到距其最近的质心(这里算...

2018-07-08 09:48:00 1131

原创 sklearn调包侠之PCA降维

PCA PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。 实战——人脸识别 数据导入 该数据集可通过sklearn进行下载。数据集总共包含40位人员的照片,每个人10张照片。通过fetch_olivetti_faces方法下载的图片,进行了处理,人脸会居中,并裁剪为64*64大小。 %mat...

2018-07-06 08:06:00 583 2

原创 sklearn调包侠之支持向量机

算法原理 对于支持向量机原理,可参考该系列博客(https://www.cnblogs.com/pinard/p/6111471.html)。 实战——乳腺癌检测 数据导入 本次实战使用前文中的乳腺癌数据集,如图所示。 from sklearn.datasets import load_breast_cancer cancer = load_...

2018-07-04 10:31:00 418

原创 sklearn调包侠之朴素贝叶斯

文档处理 朴素贝叶斯算法常用于文档的分类问题上,但计算机是不能直接理解文档内容的,怎么把文档内容转换为计算机可以计算的数字,这是自然语言处理(NLP)中很重要的内容。 TF-IDF方法 今天我们简单讲解TF-IDF方法,将文本数据转换为数字。TF-IDF是一个统计方法,用来评估单个单词在文档中的重要程度。 TF表示词频,对一个文档而言,词频就...

2018-07-03 15:16:00 485

原创 sklearn调包侠之决策树算法

决策树原理 之前我们详细讲解过决策树的原理,详细内容可以参考该链接(https://www.jianshu.com/p/0dd283516cbe)。 改进算法 但使用信息增益作为特征选择指标(ID3算法)容易造成过拟合。举一个简单例子,每个类别如果都有一个唯一ID,通过ID这个特征就可以简单分类,但这并不是有效的。为了解决这个问题,有了C4....

2018-07-01 08:41:00 755

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除