自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 zip、dataframe、open、concat、merge、dataframe的列名重新排序用法总结

zipzip() 函数是 Python 内置函数之一,它可以将多个序列(列表、元组、字典、集合、字符串以及 range() 区间构成的列表)“压缩”成一个 zip 对象。所谓“压缩”,其实就是将这些序列中对应位置的元素重新组合,生成一个个新的元组。#python2.0+的输出实例a = [1,2,3]b = [4,5,6]c = [4,5,6,7,8]zipped = zip(a,b) # 打包为元组的列表[(1, 4), (2, 5), (3, 6)]zip(a,c)

2022-04-15 11:32:48 1370

原创 在16个不同州市中分别随机抽取30个样本,并保存到同一个excel表格中。(批量合并多个sheet表)

分类变量的相关统计指标#对分类变量分类汇总df['州市'].value_counts()# 取出分类变量的unique值,并转化为列表zhous = df['州市'].unique().tolist()# 查看分类变量的类别数df['州市'].nunique()# 取出州市为昆明的数据df.loc[df['州市'] == '昆明市']随机抽样并保存结果对每个州市随机抽取30个样本,并分别保存到同一个excel的不同sheet表中# 进行随机抽样,并把得到的数据框保存到不同的she

2022-04-15 10:48:10 651

原创 pandas中将百分数转化为浮点数以及去除重复数值

pandas中将百分数转化为浮点数以及去除重复数值导入数据去除重复值总结导入数据study_information = pd.read_csv("E:/jupyter/education/data/study_information.csv",encoding='gbk')#查看数据study_information.head(10)#切分learn_process列,保留数字(切开以后的第二部分)study_information['learn_process'] = study_info

2022-03-13 21:27:59 1781

原创 利用pandas对日期、国家省市数据进行预处理

利用pandas对日期、国家省市数据进行预处理提示:日期格式形如 “2018-09-06 09:32:47”国家省市数据形如"中国广东广州首先查看原始数据login = pd.read_csv("E:/jupyter/education/data/login.csv",encoding='gbk')login.head(10)注:encoding = 'gbk'是为了解决读取以后汉字乱码的问题数据显示如下图。拆分login_place注:目标是将login_place列数据拆分为国家、

2022-03-13 21:07:39 926

原创 anaconda安装cpca包报错

anaconda安装cpca包报错第一种报错第二种报错第一种报错conda install cpcaCollecting package metadata (current_repodata.json): failed可以关闭vpn试试,亲测有用!第二种报错conda install cpcaPackagesNotFoundError: The following packages are not available from current channels:- cpca尝试使用

2022-03-13 16:02:59 629

原创 R语言读取各种类型的数据文档

R语言读取各种类型的数据文档读取xls,xlsx文件library(readxl)raw_data<-readxl(E:/raw_data.xls)更多内容可以参考:(网址)[https://readxl.tidyverse.org/]读取csv文件library(readr)yiqing <- read_csv("yiqing.csv",sep=",")View(yiqing)读取txt文件pos <- read_table("pos.txt")利用read_

2021-05-10 15:53:15 499

原创 R语言出现中文乱码

R语言出现中文乱码解决方法:点击File—Reopen with encoding-----UTF-8#操作完成后,R语言中文乱码即可恢复正常。

2021-03-15 12:38:37 6504

原创 R语言爬虫:当当网销售量Top500(批量爬取多个网址数据)

R语言爬虫:当当网销售量Top500运用R语言中rvest包对数据进行爬取。本文主要分为两个板块,第一版块主要讲解爬取一个页面数据的R语言代码,第二版块讲解批量爬取25个页面的R语言代码文章目录当仅仅爬取一页的数据时R语言代码及讲解1.导入需要的函数2.读入网址3.从网页中爬取数据4.将爬取的数据整合成数据框5.保存数据当爬取该网站所有页面时R语言代码及讲解1.paste函数批量处理网址2.首先为需要爬取的各个数据创建空白变量3.从对应网页中批量爬取数据4.将爬取的数据转换为1列的数据,以便后续合并数

2021-03-13 20:49:46 3194 4

原创 R语言中rvest包爬虫代码+示例讲解(爬取当当网)

R语言中rvest包爬虫代码+讲解rvest包确定节点R爬虫示例:爬取当当网销量数据rvest包R语言中有许多用于爬取数据的包,本篇文章主要讲解rvest包的使用。首先讲解rvest包中的主要函数。1.read_html():用于读取html(文档)的函数;2.html_nodes():用于选取文档中指定的元素、节点的部分;3.html_text():用于提取标签中的文本;4.html_attrs():用于提取属性名称及其内容。使用rvest包爬取数据简单易懂,本篇文章详解了节点确认并用示例将

2021-03-13 14:28:37 3244 2

python爬取携程网酒店的名称、地址和联系方式和星级。

python爬取携程网酒店的名称、地址和联系方式和星级。

2022-05-23

selectorgadget插件.rar

R语言爬虫的重要辅助工具,使用Selectorgadget插件,可以快速找准节点,从而对网页数据进行爬取。

2021-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除