Datawhale
Datawhale学习之旅
夜是故乡明
Java后端开发工程师
展开
-
统计学基本知识,简单分布及基本定理
统计学基本知识总体:问题涉及的所有数据样本:总体的部分数据统计即用样本估计总体期望值:一组数据的平均情况概率分布:离散数据的分布概率密度函数:连续数据的分布总体方差:无偏方差,真实的方差样本方差:有偏方差,样本的方差,用来评估总体方差标准差:方差开根号简单分布二项分布多次伯努利实验(抛硬币)假设实验成功的概率为pE(x) = npD(x) = np(1-p)...原创 2019-04-04 20:46:13 · 5206 阅读 · 0 评论 -
爬虫(三):爬取西刺高匿代理
抓取西刺高匿代理,并验证IP的可用性,存储到本地文件中。代码如下# 导入模块import requestsimport chardetimport randomfrom scrapy.selector import Selectorfrom telnetlib import Telnet # 这是用来验证IP是否可用import timedef getXici(url): ...原创 2019-04-11 21:24:07 · 530 阅读 · 0 评论 -
假设检验六大步骤
假设检验:做出假设或断言,对照证据进行检验。主要分为以下六步:(1)确定假设 所检验的断言被称为原假设,用H0表示; 与原假设对立的断言被称为备择假设,用H1表示; 进行假设验证时,假定原假设为真;但如果有足够证据反驳原假设,则拒绝原假设,接受备择假设,这一过程也被称为显著性检验。(2)选择检验统计量(3)确定拒绝域先定显著性水平,以百分比表示,在显著性水平内,将拒绝原假设,...原创 2019-04-07 23:09:45 · 39459 阅读 · 1 评论 -
GBDT简单学习
GBDT(Gradient Boosting Decision Tree)看完诸位大牛的博客,还是云里雾里,暂且做个笔记,以待日后回顾再修正。GBDT主要由三个概念组成:Regression Decistion Tree(回归树,RDT),Gradient Boosting(梯度下降,GB),Shrinkage(分支)GBDT本质是回归树拟合的残差之和,每颗回归树均方差尽量小。没看到GB的...原创 2019-04-07 20:54:54 · 150 阅读 · 0 评论 -
爬取豆瓣电影Top250
1.1 爬虫基本原理 爬虫是模拟用户(User),向服务器(Server)发送请求(Request),获取响应(Response)的程序(Program)。1.2 请求(Request) 1.2.1请求方式 请求常用的方式有get与post方式 post常用于表单提交 1.2.2请求头 请求头包括提交请求的重要信息,常见字段有User-Agent,Refer...原创 2019-04-07 19:46:33 · 1702 阅读 · 0 评论 -
树模型(三):XGB
算法原理XGB基于特征生成多颗回归树,每颗回归树学习相应的残差,残差之和即为样本的预测值。损失函数回归问题:MSE分类问题:对数损失函数分裂结点算法与CART类似,设定阈值,当目标函数的增益大于阈值时,进行结点分裂正则化采用L2正则化对缺失值处理为缺失值指定默认方向,而在预测中出现缺失值,划分到右子树。优缺点优点:1.能很好地处理缺失值,学习分裂方向2.支持线性分类...原创 2019-04-10 20:02:09 · 3610 阅读 · 0 评论 -
54张扑克牌,3人轮抽,求单人同时抽到大小王的概率
【每日一问】一副扑克54张,三个人轮流抓牌,一个人18张。大王小王被同一个人拿到的概率是多大?解题思路:将扑克牌分成三堆,再分给三个人。古典概型问题。分子:因为大小王两张扑克必须在一起,还剩52张扑克牌,分成16,18,18三堆扑克牌,再分给三个人。注意:有两个相同的18。C5216×C3618×C1818A33A22 C_{52}^{16} \times C_{36}^{18} ...原创 2019-04-06 20:55:45 · 9512 阅读 · 6 评论 -
中心极限定理和置信区间
大数定律大数定律不涉及到数据分布,随着样本增大,抽样分布近似总体分布,算术平均值接近其期望值。中心极限定理中心极限定理是说无论抽样分布如何,随机变量求和服从正态分布。用正态分布逼近二项分布,所以我们使用二项分布来模拟正态分布。import numpy as npfrom numpy import random as nprd## 导入matplotlibimport mat...原创 2019-04-05 23:36:07 · 1120 阅读 · 0 评论 -
随机森林(Random Forest)算法梳理
随机训练数据随机,有放回地从N个数据随机抽样n个特征选择随机,随机选取m个特征,作为分类特征将整个数据集以矩阵形式存储,相当于随机取n行,取m列森林构造多个决策树,实践默认为100以决策树的表决结果决定随机森林的结果随机森林既能解决分类问题,也能解决回归问题(不常用,存在数值跳动问题)模型评估每次随机选择数据和特征构造一颗决策树,会存在1/e的包外数据使用这部分数据作...原创 2019-04-04 21:28:17 · 1231 阅读 · 0 评论 -
【每日一问】工作日问题
【每日一问】某一年的七月份如果有23个工作日,那么这一年的七月一号可能是周几答案周一,周二,周三。思路:7月份一共有31天。一周(7天循环)有5个工作日,2个休息日。1~7,8~14,15~21,22~28,四周有20个工作日。若要有23个工作日。即29,30,31都为工作日。即29为周一,30为周二,31为周三;即29为周二,30为周三,31为周四;即29为周三,30为周四...原创 2019-04-12 11:12:56 · 2007 阅读 · 0 评论