DataWhale——21期数据分析组队学习

最新推荐文章于 2024-01-31 16:10:13 发布

唐yi壹佰

最新推荐文章于 2024-01-31 16:10:13 发布

阅读量93

点赞数

分类专栏： datawhale组队学习文章标签： python 数据分析

本文链接：https://blog.csdn.net/m0_46668150/article/details/112502782

版权

datawhale组队学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

DataWhale——21期数据分析组队学习 Day1

前言
一、今天做了什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

Day1

前言

今天是参加DataWhale——21期数据分析组队学习的第一天，在参加这个组队学习之前我心里是很犹豫的，因为我的Python基础不是很好，虽然我自学了Python基础，但是我还没有真正用到案例上的经历，并且很多东西因为用的少，学习的时间长了有点淡忘了，如果我以后要从事数据分析类的工作的话几乎就没有机会了，虽然我一直有好好学习数据挖掘和数据分析的打算，那么参加这个组队学习就是一个开始吧。不管怎么样，15天的学习我一定会坚持下来的。

提示：以下是本篇文章正文内容，下面案例可供参考

一、今天做了什么？

虽然每天的学习计划大概是3-5个小时，可能我基础还是有点太差了，又或者我把事情想的简单了，晚上从7点多开始学习，目前为止，我大概了解了一下这次学习会用到的库，这次会用到的库还是挺多的，下面会介绍，除了requests、json、matplotlib之前有用到，其他的都没有用过，因此我了解了一下其他的模块。最后我想尝试一下从网页爬取数据，但是没有成功，这个任务留给明天吧。

二、使用步骤

1.引入库

代码如下（示例）：

import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

2.读入数据

代码如下（示例）：

url = 'https://www.kaggle.com/Cornell-University/arxiv'			#数据来源网址
req = requests.get(url)			#用requests获取数据

filename = "arxiv-metadata-oai-snapshot.json"
with open (filename,'w') as f_obj:
	json.dump(req,f_obj)			#将数据写成json格式


# 读入据
data = [] #初始化
#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常
with open(filename, 'r') as f:
	for line in f:
		data.append(json.loads(line))

data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析
data.shape #显示数据大小

该处使用的url网络请求的数据。

总结

明天一定要改好数据读取部分！继续加油！

唐yi壹佰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DataWhale——21期数据分析组队学习

DataWhale——21期数据分析组队学习Day1前言一、今天做了什么？二、使用步骤1.引入库2.读入数据总结Day1前言今天是参加DataWhale——21期数据分析组队学习的第一天，在参加这个组队学习之前我心里是很犹豫的，因为我的Python基础不是很好，虽然我自学了Python基础，但是我还没有真正用到案例上的经历，并且很多东西因为用的少，学习的时间长了有点淡忘了，如果我以后要从事数据分析类的工作的话几乎就没有机会了，虽然我一直有好好学习数据挖掘和数据分析的打算，那么参加这个组队学习
复制链接

扫一扫

专栏目录