百里驰-CSDN博客

原创决策树算法梳理

一、信息论基础1.1 信息熵信息熵与热力学中的熵不一样，是表示随机变量不确定性的度量。熵值越大，不确定程度越大，也就是说明所含信息越多；相反，熵值越小，不确定程度越小，也就是说明所含信息越小；在决策树的应用中，熵用来衡量样本的纯度，熵越小，样本越纯，表明分类的效果越好公式：H(X)=∑xp(x)∗log⁡p(x)H(X) = \sum_{x}p(x)*\log{p(x)}H(X)=∑xp(...

2019-08-12 03:31:10 295

原创逻辑回归学习笔记

逻辑回归学习笔记一、逻辑回归与线性回归的联系与区别logistic回归仍是线性模型的一种，属于广义的线性回归（对数线性）。区别：线性回归用于回归预测，通常不用于分类；Logistic回归则是分类问题的首选算法，狭义理解为二分类；多分类为Softmax回归，为广义的逻辑回归。Softmax回归自由度为(k−1)∗n(k-1)*n(k−1)∗n，k代表有k个参数，则当k=2时(如两个参数...

2019-08-09 20:56:06 494

原创线性回归学习笔记

一、线性回归模型定义按变量数据可以分为：一元线性回归和多元线性回归。一元线性回归模型可以表示如下：y = \beta_0 + \beta_1x + \epsilon公式中参数解释如下：x ：自变量y ：因变量β 0：截距β 1：变量回归系数ϵ :误差项的随机变量，假设服从正态分布（β 0 +β 1 x）反映了由x变化引起的y线性变化。多元回归模型表示如下：写成向量：...

2019-08-07 16:41:48 1267

原创爬虫学习日记3-构建免费代理池

爬虫学习日记3-使用selenium和构建代理池学习目标：工作中许多指标数据来源自多个网站，而且由于开发厂家不同，这些系统数据网站没有整合。由于各种原因，我只能拿到其中一小部分API接口，剩余大量数据需要手动下载。所以学习爬虫技术增加工作里的自动化程度，减少人力成本。一、学习任务a：安装selenium并学习安装selenium并学习。使用selenium模拟登陆163邮箱。...

2019-05-15 19:24:12 231

原创爬虫学习日记2-提取丁香园论坛的回复内容

爬虫学习日记2-提取丁香园论坛的回复内容任务：学习beautifulsoup，并使用beautifulsoup提取内容。使用beautifulsoup提取丁香园论坛的回复内容。丁香园直通点：[http://www.dxy.cn/bbs/thread/626626#626626]一、使用BeautifulSoup方法1：find_all方法+使用属性首先导入相关bs4和...

2019-05-13 17:30:31 273

原创爬虫学习日记1-豆瓣top250电影信息爬取

@爬虫学习日记1-豆瓣top250电影信息爬去学习任务：结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容，要求抓取名次、影片名称、年份、导演等字段。```import requestsimport reimport pickleimport timeheaders = { 'User-Agent':"Moz...

2019-05-11 00:09:17 2851

原创 02统计学温习日记-4月5日

35课视频内容：central limit theorem中心极限定理从一组随机变量中（概率不同）取一组样本，样本均值或和遵循正态分布。视频提到sample size 样本容量样本表示分布的一系列样本值，样本容量表示抽取多少个样本值。下发评论摘抄：1、中心极限定理的本质也就在这。哪怕原始分布像两个驼峰，样本均值的分布也接近正态分布，样本容量n越大，越接近。2、中心极限定理：设从均...

2019-04-05 23:05:13 495

@01统计学温习-4月4日01统计学温习-4月4日近期公司上线了大数据平台和相关应用，做为应用人员中感觉还是要深入了解一些深层的原理。做为理工男大学多少都学过高等数学，但远离课堂N多年，数学符号已成了熟悉的陌生人，遂开始恶补数据分析、统计学等基础性的知识，试着融入这个时代。此次跟着视频从最基础开始温习统计学知识，3日、4日学习了12课至34课。首先学到了统计学中的一些概念的专业性描述、数学符...

2019-04-05 21:32:41 151

利用Python进行数据分析第二版（已读，加学习心得书签）

成书时间不早于2017年；共14章，适宜入门。本人已拜读，觉得非常实用，许多知识点手动添加了标签，便于自行复习。

2019-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_41131384的博客

原创决策树算法梳理

原创逻辑回归学习笔记

原创线性回归学习笔记

原创爬虫学习日记3-构建免费代理池

原创爬虫学习日记2-提取丁香园论坛的回复内容

原创爬虫学习日记1-豆瓣top250电影信息爬取

原创 02统计学温习日记-4月5日

原创 01统计学温习日记-4月4日

利用Python进行数据分析第二版（已读，加学习心得书签）

空空如也

利用Python进行数据分析 第二版（已读，加学习心得书签）

空空如也

利用Python进行数据分析第二版（已读，加学习心得书签）