- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 决策树算法梳理
一、信息论基础1.1 信息熵信息熵与热力学中的熵不一样,是表示随机变量不确定性的度量。熵值越大,不确定程度越大,也就是说明所含信息越多;相反,熵值越小,不确定程度越小,也就是说明所含信息越小;在决策树的应用中,熵用来衡量样本的纯度,熵越小,样本越纯,表明分类的效果越好公式:H(X)=∑xp(x)∗logp(x)H(X) = \sum_{x}p(x)*\log{p(x)}H(X)=∑xp(...
2019-08-12 03:31:10 295
原创 逻辑回归学习笔记
逻辑回归学习笔记一、逻辑回归与线性回归的联系与区别logistic回归仍是线性模型的一种,属于广义的线性回归(对数线性)。区别:线性回归用于回归预测,通常不用于分类;Logistic回归则是分类问题的首选算法,狭义理解为二分类;多分类为Softmax回归,为广义的逻辑回归。Softmax回归自由度为(k−1)∗n(k-1)*n(k−1)∗n,k代表有k个参数,则当k=2时(如两个参数...
2019-08-09 20:56:06 494
原创 线性回归学习笔记
一、线性回归模型定义按变量数据可以分为:一元线性回归和多元线性回归。一元线性回归模型可以表示如下:y = \beta_0 + \beta_1x + \epsilon公式中参数解释如下:x :自变量y :因变量β 0:截距β 1:变量回归系数ϵ :误差项的随机变量 ,假设服从正态分布(β 0 +β 1 x)反映了由x变化引起的y线性变化。多元回归模型表示如下:写成向量:...
2019-08-07 16:41:48 1267
原创 爬虫学习日记3-构建免费代理池
爬虫学习日记3-使用selenium和构建代理池学习目标:工作中许多指标数据来源自多个网站,而且由于开发厂家不同,这些系统数据网站没有整合。由于各种原因,我只能拿到其中一小部分API接口,剩余大量数据需要手动下载。所以学习爬虫技术增加工作里的自动化程度,减少人力成本。一、学习任务a: 安装selenium并学习安装selenium并学习。使用selenium模拟登陆163邮箱。...
2019-05-15 19:24:12 231
原创 爬虫学习日记2-提取丁香园论坛的回复内容
爬虫学习日记2-提取丁香园论坛的回复内容任务:学习beautifulsoup,并使用beautifulsoup提取内容。使用beautifulsoup提取丁香园论坛的回复内容。丁香园直通点:[http://www.dxy.cn/bbs/thread/626626#626626]一、使用BeautifulSoup方法1:find_all方法+使用属性首先导入相关bs4和...
2019-05-13 17:30:31 273
原创 爬虫学习日记1-豆瓣top250电影信息爬取
@爬虫学习日记1-豆瓣top250电影信息爬去学习任务:结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容, 要求抓取名次、影片名称、年份、导演等字段。```import requestsimport reimport pickleimport timeheaders = { 'User-Agent':"Moz...
2019-05-11 00:09:17 2851
原创 02统计学温习日记-4月5日
35课视频内容:central limit theorem中心极限定理从一组随机变量中(概率不同)取一组样本,样本均值或和遵循正态分布。视频提到sample size 样本容量样本表示分布的一系列样本值,样本容量表示抽取多少个样本值。下发评论摘抄:1、中心极限定理的本质也就在这。哪怕原始分布像两个驼峰,样本均值的分布也接近正态分布,样本容量n越大,越接近。2、中心极限定理:设从均...
2019-04-05 23:05:13 495
原创 01统计学温习日记-4月4日
@01统计学温习-4月4日01统计学温习-4月4日近期公司上线了大数据平台和相关应用,做为应用人员中感觉还是要深入了解一些深层的原理。做为理工男大学多少都学过高等数学,但远离课堂N多年,数学符号已成了熟悉的陌生人,遂开始恶补数据分析、统计学等基础性的知识,试着融入这个时代。此次跟着视频从最基础开始温习统计学知识,3日、4日学习了12课至34课。首先学到了统计学中的一些概念的专业性描述、数学符...
2019-04-05 21:32:41 151
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人