自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Task05:综合练习

问题1(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别,再将 类别结果插入到标题一列之后,最后对类别列进行降序排序。(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失 值进行合理估计并填充。(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为 ××,共计 ×× 人付款,单价为 ××。(

2020-07-01 23:06:18 273

原创 Task04:方差分析

方差分析1 基本概念方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时,对因变量的影响是否是显著的。以焦虑症治疗为例,现有两种治疗方案:认知行为疗法(CBT)和眼动脱敏再加工法(EMDR)。我们招募10位焦虑症患者作为志愿者,随机分配一半的人接受为期五周的CBT,另外一半接受为期五周的EMDR,设计方案如表1-1所示。在治疗结束时,要求每位患者都填写状态特质焦虑问卷(STAI),也就是一份焦虑度测量的自我评测报告。在这个实验设计中,治疗方案是

2020-06-30 22:58:51 796

原创 Task04:时序数据

一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑,后面会作出一些说明名称 描述 元素类型 创建方式 ① Date times(时间点/时刻) 描述特定日期或时间点 Timestamp to_datetime或date_range ② Time spans(时间段/时期) 由时间点定义的一段时期 Period Period或period_range ③ Date offsets(相对时间差) 一段时间的相对大小(

2020-06-29 22:33:29 202

原创 Task03:分类数据

分类变量的创建及其性质分类变量的创建:pd.Series(["a", "b", "c", "a"], dtype="category") #用Series创建#对DataFrame指定类型创建temp_df = pd.DataFrame({'A':pd.Series(["a", "b", "c", "a"], dtype="category"),'B':list('abcd')})temp_df.dtypes#利用内置Categorical类型创建cat = pd.C

2020-06-27 18:16:38 136

原创 Task02:文本数据

String 类型与object的区别string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节③ string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan

2020-06-27 17:40:42 171

原创 Task03:常见分布与假设检验

一、基本概念随机变量:根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。对于连续型随机变量,使用概率密度函数(probability density function),简称PDF,来描述其分布情况。对于连续型随机变量,通常还会用到累积分布函数 (cumulative distribution function),简称CDF,来描述其性质,在数学上CDF是...

2020-06-26 11:33:13 575

原创 Task02:数理统计与描述性分析

一、基本概念在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体抽样:每次抽取必须是随机的、独立的,才能更好地反映总体情况简单随机抽样:每个个体被抽到的机会是均等的,x1、x2、x3···xi互相独立,且xi与总体X同分布样本作为随机变量,有一定的概率分布,称为样本分布,取决于总体的性质和样本的性质。注意:样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。抽样分布:统计量的分布

2020-06-26 10:44:56 353

原创 Task01:缺失数据

对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。 1234 import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head()

2020-06-23 21:38:06 201

原创 Task01 随机事件与随机变量

1、基本概念现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。使随机现象得以实现和对它观察的全过程称为随机试验。称随机试验的所有可能结果组成的集合为样本空间。试验的每一个可能结果称为样本点。称样本空间中满足一定条件的子集为随机事件。另外,随机事件在随机试验中可能出现也可能不出现。在试验中,称一个事件发生是指构成该事件的一个样本点出现。由于样本空间包含了所有的样本点,所以在每次试验中,它总是发生,因此称为必然事

2020-06-22 22:41:00 384

原创 Task04 selenium实战之爬取腾讯新闻热点精选

话不多说,切入正题。基于对https://news.qq.com/热点精选的分析,获取热点精选的文本和url信息还是比较简单的,selenium模拟浏览器,ajax加载,利用bs4进行页面解析便可实现,代码如下:import timeimport csvfrom selenium import webdriverdriver=webdriver.Chrome(executabl...

2020-04-27 21:46:38 269

原创 Task03 session和cookie、代理、selenium自动化 拔高:丁香园留言板爬取

一、selenium工具1、selenium介绍:selenium是什么:一个自动化测试工具(大家都是这么说的) selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要2、selenium工具使用示例:正在上传…重新上传取消二、代理IP1、代理IP介绍:代理IP即代理服务器,英文全称是Proxy ...

2020-04-25 23:03:21 262

原创 Task02 正则表达式

一、介绍:正则表达式是用来简洁表达一组字符串的表达式 正则表达式是一种通用的字符串表达框架 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具 正则表达式可以用来判断某字符串的特征归属二、语法: 正则符号 含义 . 表示任何单个字符 [ ] 字符集,对单个字符...

2020-04-23 22:56:20 234

原创 Task01 豆瓣电影Top 250

1、翻阅网页可找到豆瓣电影 Top 250,网页链接为:https://movie.douban.com/top250?start=0&filter=网页特点:每页25个,共10页网址start=0数字部分按照每次累加25进行分页网页链接获取url代码:for site in range(0, 250, 25): ...

2020-04-21 18:19:22 538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除