数据采集与预处理
文章平均质量分 88
那个叫马尔的大夫
山海有的是时间
展开
-
数据预处理之异常值检测
拍照赚钱”作为移动互联网下的一种自助式服务模式,用户在APP上领取拍照任务并执行,从而获得相应报酬。从数据中可观察到任务定价和任务执行情况,最终定价按位置范围可分为四类:北纬约 23°至 23.08°,东经约113.1°至113.2°;北纬约23.1°至23.2°,东经约113.21°至113.5°;北纬约113.8°至 114.1°,东经约22.5°至22.8°;北纬约22.8°至23. 9°,东经约113.5°至113. 8°。原创 2023-07-09 22:28:50 · 683 阅读 · 3 评论 -
数据预处理之数据规约
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。本质上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。——来自《知乎》原创 2023-07-05 22:03:31 · 648 阅读 · 1 评论 -
爬取豆瓣以及王者所有英雄信息实验报告(小生不才,记得点赞加关注)
实验任务准备工作 学习网络爬虫相关知识和Python编程语法 学习爬虫需要调用的模块用法 python爬虫练习实验 练习urllib、bs、re、xlwt库的调用(了解requests第三方库) 熟悉网络爬虫流程 实验内容任务1(70分):爬取豆瓣电影Top250的基本信息,包括电影的名称(中英文名称分开或者存储为一列都可以)、豆瓣评分、评价数、电影链接,并自动存储生成exce表格。url:豆瓣电影 Top 250此实验需要定义四大模块:主函数模块、url请求模块、..原创 2021-12-03 21:21:33 · 1673 阅读 · 3 评论 -
第十三周数据预处理实验
实验任务准备工作 学习数据预处理描述性分析的内容 在学习通下载文件“insurance.csv”和“doc_sim.csv” 实验内容任务1:导入文件“insurance.csv”,只选取“age”“bmi”“children”“charges”四列属性。导入文件并查看信息:提取“age”“bmi”“children”“charges”四列属性组成新的二维表:任务2:分别计算四列数据的均值、中位数、众数、极差、方差、标准差和上四分位数。...原创 2021-12-01 23:08:25 · 1620 阅读 · 2 评论 -
整理五种相似性和相异性的度量方法
1、首先,先了解相似性和相异度的概念:相似度:两个对象之间相似程度的数值度量,取值范围为0到1。相异度:两个对象之间差异程度的数值度量,通常用“距离”衡量。2、标称属性(含二元属性)相似度和相异度:标称属性可以取2个或多个状态。假设一个标称属性的状态数目为M,则标称数据对象i和标称数据对象j之间的相异性可以根据不匹配率来计算。示例:如图,该图所展示的四类属性均为二元属性,即两个状态。0/1若将小明作为标称数据对象i,小刚作为标称数据对象j,计算两者的相异性与相似性。..原创 2021-11-28 20:14:23 · 8367 阅读 · 0 评论