fire_i_ce-CSDN博客

原创 Task05：综合练习

问题1(1) 请删除最后一列为缺失值的行，并求所有在杭州发货的商品单价均值。(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别，再将类别结果插入到标题一列之后，最后对类别列进行降序排序。(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××，店铺为 ××，共计 ×× 人付款，单价为 ××。(

2020-07-01 23:06:18 277

原创 Task04：方差分析

方差分析1 基本概念方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时，对因变量的影响是否是显著的。以焦虑症治疗为例，现有两种治疗方案：认知行为疗法（CBT）和眼动脱敏再加工法（EMDR）。我们招募10位焦虑症患者作为志愿者，随机分配一半的人接受为期五周的CBT，另外一半接受为期五周的EMDR，设计方案如表1-1所示。在治疗结束时，要求每位患者都填写状态特质焦虑问卷（STAI），也就是一份焦虑度测量的自我评测报告。在这个实验设计中，治疗方案是

2020-06-30 22:58:51 803

原创 Task04：时序数据

一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑，后面会作出一些说明名称描述元素类型创建方式 ① Date times（时间点/时刻）描述特定日期或时间点 Timestamp to_datetime或date_range ② Time spans（时间段/时期）由时间点定义的一段时期 Period Period或period_range ③ Date offsets（相对时间差）一段时间的相对大小（

2020-06-29 22:33:29 206

原创 Task03：分类数据

分类变量的创建及其性质分类变量的创建：pd.Series(["a", "b", "c", "a"], dtype="category") #用Series创建#对DataFrame指定类型创建temp_df = pd.DataFrame({'A':pd.Series(["a", "b", "c", "a"], dtype="category"),'B':list('abcd')})temp_df.dtypes#利用内置Categorical类型创建cat = pd.C

2020-06-27 18:16:38 139

原创 Task02：文本数据

String 类型与object的区别string与object的区别string类型和object不同之处有三：① 字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节③ string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

2020-06-27 17:40:42 174

原创 Task03：常见分布与假设检验

一、基本概念随机变量：根据随机变量可能取值的个数分为离散型（取值有限）和连续型（取值无限）两类。对于离散型随机变量，使用概率质量函数（probability mass function），简称PMF，来描述其分布律。对于连续型随机变量，使用概率密度函数（probability density function），简称PDF，来描述其分布情况。对于连续型随机变量，通常还会用到累积分布函数 (cumulative distribution function)，简称CDF，来描述其性质，在数学上CDF是...

2020-06-26 11:33:13 586

原创 Task02：数理统计与描述性分析

一、基本概念在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体抽样：每次抽取必须是随机的、独立的，才能更好地反映总体情况简单随机抽样：每个个体被抽到的机会是均等的，x1、x2、x3···xi互相独立，且xi与总体X同分布样本作为随机变量，有一定的概率分布，称为样本分布，取决于总体的性质和样本的性质。注意：样本具有两重性，即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量，因为抽样是随机的。抽样分布：统计量的分布

2020-06-26 10:44:56 353

原创 Task01：缺失数据

对于缺失值的处理，从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据，人将影响数据的真实性，存在缺失值的样本的其他属性的真实值不能保证，那么依赖于这些属性值的插补也是不可靠的，所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据，它的可靠性有保证。 1234 import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head()

2020-06-23 21:38:06 204

原创 Task01 随机事件与随机变量

1、基本概念现实生活中，一个动作或一件事情，在一定条件下，所得的结果不能预先完全确定，而只能确定是多种可能结果中的一种，称这种现象为随机现象。使随机现象得以实现和对它观察的全过程称为随机试验。称随机试验的所有可能结果组成的集合为样本空间。试验的每一个可能结果称为样本点。称样本空间中满足一定条件的子集为随机事件。另外，随机事件在随机试验中可能出现也可能不出现。在试验中，称一个事件发生是指构成该事件的一个样本点出现。由于样本空间包含了所有的样本点，所以在每次试验中，它总是发生，因此称为必然事

2020-06-22 22:41:00 400

原创 Task04 selenium实战之爬取腾讯新闻热点精选

话不多说，切入正题。基于对https://news.qq.com/热点精选的分析，获取热点精选的文本和url信息还是比较简单的，selenium模拟浏览器，ajax加载，利用bs4进行页面解析便可实现，代码如下：import timeimport csvfrom selenium import webdriverdriver=webdriver.Chrome(executabl...

2020-04-27 21:46:38 273

原创 Task03 session和cookie、代理、selenium自动化拔高：丁香园留言板爬取

一、selenium工具1、selenium介绍：selenium是什么：一个自动化测试工具（大家都是这么说的） selenium应用场景：用代码的方式去模拟浏览器操作过程（如：打开浏览器、在输入框里输入文字、回车等），在爬虫方面很有必要2、selenium工具使用示例：正在上传…重新上传取消二、代理IP1、代理IP介绍：代理IP即代理服务器，英文全称是Proxy ...

2020-04-25 23:03:21 274

原创 Task02 正则表达式

一、介绍：正则表达式是用来简洁表达一组字符串的表达式正则表达式是一种通用的字符串表达框架正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具正则表达式可以用来判断某字符串的特征归属二、语法：正则符号含义 . 表示任何单个字符 [ ] 字符集，对单个字符...

2020-04-23 22:56:20 239

原创 Task01 豆瓣电影Top 250

1、翻阅网页可找到豆瓣电影 Top 250，网页链接为：https://movie.douban.com/top250?start=0&filter=网页特点：每页25个，共10页网址start=0数字部分按照每次累加25进行分页网页链接获取url代码：for site in range(0, 250, 25): ...

2020-04-21 18:19:22 546

fire_i_ce的博客