m0_51166594-CSDN博客

原创第五次作业

#导入所需的package#具体思路以及代码实现#导入package并读取原始数据import seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式，匹配字符串的模式import requests #用于网络连接，发送网络请求，使用域名获取对应信息import json #读取数据，我们的数据为json格式的import pandas as pd #数据处理，数据分析import

2021-01-25 23:22:37 112

转载第四次作业

一、TF-IDF + 机器学习分类器将论文的摘要和标题拼接在一起，进行分类数据处理data = Data.copy()data[‘text’] = data[‘title’] + data[‘abstract’]data[‘text’] = data[‘text’].apply(lambda x:x.replace(’\n’, ’ '))data[‘text’] = data[‘text’].apply(lambda x:x.lower())data = data.drop([‘title’,

2021-01-22 23:22:56 460

原创数据分析第三次作业

数据分析第三次作业一.读取数据并简单查看data = []#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常with open(“arxiv-metadata-oai-snapshot.json”, ‘r’) as f:for idx, line in enumerate(f):d = json.loads(line)d = {‘abstract’: d[‘abstract’], ‘categories’: d[‘categories’], ‘comments

2021-01-20 21:41:34 387

原创第一次数据分析作业

导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式，匹配字符串的模式import requests #⽤于⽹络连接，发送⽹络请求，使⽤域名获取对应信息import json #读取数据，我们的数据为json格式的import pandas as pd #数据处理，数据分析import matplotlib.pyplot as plt #画图⼯具

2021-01-17 21:57:44 188

原创打卡数据分析第二次作业——论文作者统计

打卡数据分析第一次作业导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式，匹配字符串的模式import requests #用于网络连接，发送网络请求，使用域名获取对应信息import json #读取数据，我们的数据为json格式的import pandas as pd #数据处理，数据分析import matplotlib.pyplot a

2021-01-16 21:37:54 155

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 第五次作业

转载 第四次作业

原创 数据分析第三次作业

原创 第一次数据分析作业

原创 打卡数据分析第二次作业——论文作者统计

空空如也

空空如也

原创第五次作业

转载第四次作业

原创数据分析第三次作业

原创第一次数据分析作业

原创打卡数据分析第二次作业——论文作者统计