自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 决策树算法梳理

一、信息论基础1.1 信息熵信息熵与热力学中的熵不一样,是表示随机变量不确定性的度量。熵值越大,不确定程度越大,也就是说明所含信息越多;相反,熵值越小,不确定程度越小,也就是说明所含信息越小;在决策树的应用中,熵用来衡量样本的纯度,熵越小,样本越纯,表明分类的效果越好公式:H(X)=∑xp(x)∗log⁡p(x)H(X) = \sum_{x}p(x)*\log{p(x)}H(X)=∑x​p(...

2019-08-12 03:31:10 295

原创 逻辑回归学习笔记

逻辑回归学习笔记一、逻辑回归与线性回归的联系与区别logistic回归仍是线性模型的一种,属于广义的线性回归(对数线性)。区别:线性回归用于回归预测,通常不用于分类;Logistic回归则是分类问题的首选算法,狭义理解为二分类;多分类为Softmax回归,为广义的逻辑回归。Softmax回归自由度为(k−1)∗n(k-1)*n(k−1)∗n,k代表有k个参数,则当k=2时(如两个参数...

2019-08-09 20:56:06 494

原创 线性回归学习笔记

一、线性回归模型定义按变量数据可以分为:一元线性回归和多元线性回归。一元线性回归模型可以表示如下:y = \beta_0 + \beta_1x + \epsilon公式中参数解释如下:x :自变量y :因变量β 0:截距β 1:变量回归系数ϵ :误差项的随机变量 ,假设服从正态分布(β 0 +β 1 x)反映了由x变化引起的y线性变化。多元回归模型表示如下:写成向量:...

2019-08-07 16:41:48 1267

原创 爬虫学习日记3-构建免费代理池

爬虫学习日记3-使用selenium和构建代理池学习目标:工作中许多指标数据来源自多个网站,而且由于开发厂家不同,这些系统数据网站没有整合。由于各种原因,我只能拿到其中一小部分API接口,剩余大量数据需要手动下载。所以学习爬虫技术增加工作里的自动化程度,减少人力成本。一、学习任务a: 安装selenium并学习安装selenium并学习。使用selenium模拟登陆163邮箱。...

2019-05-15 19:24:12 231

原创 爬虫学习日记2-提取丁香园论坛的回复内容

爬虫学习日记2-提取丁香园论坛的回复内容任务:学习beautifulsoup,并使用beautifulsoup提取内容。使用beautifulsoup提取丁香园论坛的回复内容。丁香园直通点:[http://www.dxy.cn/bbs/thread/626626#626626]一、使用BeautifulSoup方法1:find_all方法+使用属性首先导入相关bs4和...

2019-05-13 17:30:31 273

原创 爬虫学习日记1-豆瓣top250电影信息爬取

@爬虫学习日记1-豆瓣top250电影信息爬去学习任务:结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容, 要求抓取名次、影片名称、年份、导演等字段。```import requestsimport reimport pickleimport timeheaders = { 'User-Agent':"Moz...

2019-05-11 00:09:17 2851

原创 02统计学温习日记-4月5日

35课视频内容:central limit theorem中心极限定理从一组随机变量中(概率不同)取一组样本,样本均值或和遵循正态分布。视频提到sample size 样本容量样本表示分布的一系列样本值,样本容量表示抽取多少个样本值。下发评论摘抄:1、中心极限定理的本质也就在这。哪怕原始分布像两个驼峰,样本均值的分布也接近正态分布,样本容量n越大,越接近。2、中心极限定理:设从均...

2019-04-05 23:05:13 495

原创 01统计学温习日记-4月4日

@01统计学温习-4月4日01统计学温习-4月4日近期公司上线了大数据平台和相关应用,做为应用人员中感觉还是要深入了解一些深层的原理。做为理工男大学多少都学过高等数学,但远离课堂N多年,数学符号已成了熟悉的陌生人,遂开始恶补数据分析、统计学等基础性的知识,试着融入这个时代。此次跟着视频从最基础开始温习统计学知识,3日、4日学习了12课至34课。首先学到了统计学中的一些概念的专业性描述、数学符...

2019-04-05 21:32:41 151

利用Python进行数据分析 第二版(已读,加学习心得书签)

成书时间不早于2017年;共14章,适宜入门。本人已拜读,觉得非常实用,许多知识点手动添加了标签,便于自行复习。

2019-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除