- 博客(5)
- 收藏
- 关注
原创 第五次作业
#导入所需的package#具体思路以及代码实现#导入package并读取原始数据import seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import
2021-01-25 23:22:37 103
转载 第四次作业
一、TF-IDF + 机器学习分类器将论文的摘要和标题拼接在一起,进行分类数据处理data = Data.copy()data[‘text’] = data[‘title’] + data[‘abstract’]data[‘text’] = data[‘text’].apply(lambda x:x.replace(’\n’, ’ '))data[‘text’] = data[‘text’].apply(lambda x:x.lower())data = data.drop([‘title’,
2021-01-22 23:22:56 427
原创 数据分析第三次作业
数据分析第三次作业一.读取数据并简单查看data = []#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常with open(“arxiv-metadata-oai-snapshot.json”, ‘r’) as f:for idx, line in enumerate(f):d = json.loads(line)d = {‘abstract’: d[‘abstract’], ‘categories’: d[‘categories’], ‘comments
2021-01-20 21:41:34 359
原创 第一次数据分析作业
导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具
2021-01-17 21:57:44 171
原创 打卡数据分析第二次作业——论文作者统计
打卡数据分析第一次作业导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot a
2021-01-16 21:37:54 135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人