自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 第五次作业

#导入所需的package#具体思路以及代码实现#导入package并读取原始数据import seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import

2021-01-25 23:22:37 103

转载 第四次作业

一、TF-IDF + 机器学习分类器将论文的摘要和标题拼接在一起,进行分类数据处理data = Data.copy()data[‘text’] = data[‘title’] + data[‘abstract’]data[‘text’] = data[‘text’].apply(lambda x:x.replace(’\n’, ’ '))data[‘text’] = data[‘text’].apply(lambda x:x.lower())data = data.drop([‘title’,

2021-01-22 23:22:56 427

原创 数据分析第三次作业

数据分析第三次作业一.读取数据并简单查看data = []#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常with open(“arxiv-metadata-oai-snapshot.json”, ‘r’) as f:for idx, line in enumerate(f):d = json.loads(line)d = {‘abstract’: d[‘abstract’], ‘categories’: d[‘categories’], ‘comments

2021-01-20 21:41:34 359

原创 第一次数据分析作业

导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具

2021-01-17 21:57:44 171

原创 打卡数据分析第二次作业——论文作者统计

打卡数据分析第一次作业导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot a

2021-01-16 21:37:54 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除