自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Datawhale概率统计Task 03-常见分布与假设检验

文章目录1 一般随机变量1.1 随机变量的两种类型1.2 离散型随机变量1.3 连续型随机变量2 常见分布2.1 离散型分布2.1.1 二项分布(Binomial distribution)2.1.2 泊松分布(Poisson distribution)2.1.3 二项分布,泊松分布,正态分布的关系2.1.4 其他离散型随机分布几何分布(Geometric distribution)负二项分布(Negative binomial distribution)超几何分布(Hypergeometric Distr

2020-06-27 22:03:18 296

原创 Datawhale-pandas-Task 07-文本数据

import pandas as pdimport numpy as np一、string类型的性质1. string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节③ string类

2020-06-26 20:47:07 153

原创 Datawhale概率统计Task 02-数理统计与描述性统计

文章目录一、数理统计概念1.基本概念释义2.统计量与抽样3.常用的统计量二、描述性统计1.数据集中趋势的度量2.数据离散趋势的度量3. 分布特征4.偏度与峰度一、数理统计概念1.基本概念释义定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ ,称 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,X

2020-06-25 22:47:06 209

原创 Datawhale自然语言处理Task 01

1. Anaconda 概述Anaconda 和 Jupyter notebook已经成为数据分析的标准环境。Anaconda是包管理和环境管理器,Jupyter notebook可以将数据分析的代码,图像和文档全部组合到一个web文档中。2. Anaconda 优势(1)Anaconda 是包管理和环境管理器,是在conda的基础上发展起来的,conda 可以帮助在计算机上安装和管理各种第三方库,包括安装,卸载和更新包 。conda 还可以很好的管理环境,例如你A项目要用到 python2,B项目要

2020-06-25 10:35:23 164

原创 Datawhale-pandas-Task 06-缺失数据处理

Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head() School Class ID Gender Address Heigh

2020-06-23 21:51:20 149

原创 Datawhale概率统计Task 01-随机事件与随机变量

随机事件与随机变量一、随机事件1.基本概念释义2.概率1.定义:2.主要性质:3.古典概型4.条件概率5.全概率公式和贝叶斯公式二、随机变量1.随机变量及其分布2. 离散型随机变量3.常见的离散型分布1.伯努利实验,二项分布4.随机变量的数字特征1.数学期望2.方差3.协方差和相关系数一、随机事件1.基本概念释义现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。​ 例如,抛掷一枚硬币,其结果有可能是出现正面

2020-06-22 21:30:32 153

原创 Datawhale爬虫组队学习Task 04

爬取腾讯新闻1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫:用selenium爬取https://news.qq.com/ 的热点精选import timeimport randomfrom selenium import webdriverfrom lxml import etreedriver = webdriv...

2020-04-27 22:29:15 174

原创 Datawhale爬虫组队学习Task 03

一、IP代理为什么会出现IP被封如何应对IP被封的问题如何获取代理IP地址使用代理确认代理IP地址有效性改进:确认网站title完整代码关于http和https代理二、IP代理selenium高级-查找元素:高级-页面交互:高级-等待页面加载(wait)三、session和cookie前置:动态网页和静态网页静态网页动态网页http1.0session和cookiessessioncookies...

2020-04-25 22:05:19 1264

原创 Datawhale爬虫组队学习Task 02

一、bs41.1 环境搭建1.2 实战:中国大学排名定向爬取二、xpath2.1 环境搭建2.2 实战:爬取丁香园-用户名和回复内容三、re(正则表达式)3.1 环境搭建3.2 淘宝商品比价定向爬虫本次需要了解bs4库的使用,xpath,正则表达式并实现案例一、bs4Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于HT...

2020-04-23 21:06:01 187

原创 Datawhale爬虫组队学习Task 01

一、认识爬虫二、必备网页基础知识三、爬虫基本步骤四、Request库4.1 Requests请求方式:get与post4.2 Requests的两个重要对象五、Request库的基本应用5.1 爬取python之禅 (requests.get的应用)5.2 金山词霸 (requests.post的应用)5.3 进阶:爬取豆瓣电影一、认识爬虫爬虫:一段自动抓取互联网信息的程序,即从互联网中的一...

2020-04-21 21:46:37 194

原创 天池二手车交易价格预测— 5模型融合

5.1 模型融合学习目标5.2 模型融合相关内容5.2.1 相关内容5.2.2 stacking5.3 数据分析5.3.1 回归\分类概率-融合5.3.1.1 简单加权平均,结果直接融合5.3.1.2 stacking融合(回归):5.3.2 分类模型融合:5.3.2.1Voting投票机制:5.3.2.2 分类的Stacking\Blending融合:5.3.2.3 分类的Stacking...

2020-04-04 16:43:22 509

原创 天池二手车交易价格预测— 4 建模调参

文章目录4.1 建模调参学习目标4.2 建模调参相关内容4.3 数据分析4.3.1 读取数据4.3.2 线性回归模型4.3.3 交叉验证4.3.4 模拟真实业务场景4.3.5 多种模型对比4.3.6 模型调参4.1 建模调参学习目标了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程4.2 建模调参相关内容常用算法或模型线性回归模型树模型GBDT模型XGBoost模型...

2020-04-01 21:09:55 508

原创 天池二手车交易价格预测— 3 特征工程

3、 特征工程3.1 特征工程简介尽管在大多数情况下,在开始任何统计分析之前,需要先对最初收集的数据进行预处理。在数据科学和机器学习技术中,有许多不同的原因导致需要进行预处理分析,例如:收集的数据格式不对(如 SQL 数据库、JSON、CSV 等)缺失值和异常值标准化减少数据集中存在的固有噪声(部分存储数据可能已损坏)数据集中的某些功能可能无法收集任何信息以供分析减少统计分析期...

2020-03-28 21:38:45 536

原创 天池二手车交易价格预测— 赛题理解 + 数据分析

天池二手车交易价格预测— 赛题理解 + 数据分析1、 赛题理解1.1 学习目标1.2 了解赛题1.2.1 赛题概况1.2.2 数据概况1.2.3 预测指标分类算法常见的评估指标如下:对于回归预测类常见的评估指标如下:1.2.4. 分析赛题2、数据分析2.1 导入相关函数工具箱2.2 读取数据2.3 数据浏览2.4 相关字符对应含义2.5 观察数据概况2.6 判断数据缺失—查看每列的存在nan情况...

2020-03-24 21:56:53 3694 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除