2021年01月_liying_tt

原创 Day05-数据分析实战-作者信息关联(DataWhale)

主题：作者信息关联对论文作者关系进行建模，统计最常出现的作者关系构建作者关系图，挖掘作者关系import seaborn as snsfrom bs4 import BeautifulSoupimport re import json import pandas as pd import matplotlib.pyplot as pltdef readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comm

2021-01-24 13:41:02 145

原创 Day04-数据分析实战-论文种类分类(DataWhale)

主题：论文种类分类利用已有数据建模，对新论文进行类别分类使用论文标题完成类别分类import seaborn as snsfrom bs4 import BeautifulSoupimport re import json import pandas as pd import matplotlib.pyplot as pltdef readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments',

2021-01-22 14:35:35 488 1

原创 Day03-数据分析实战-论文代码统计(DataWhale)

主题：论文代码统计所有论文出现代码的相关统计；使⽤正则表达式统计代码连接、⻚数和图表数据；import seaborn as snsfrom bs4 import BeautifulSoupimport re import json import pandas as pd import matplotlib.pyplot as plt数据处理在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。

2021-01-18 14:32:48 147

原创 Day02-数据分析实战-论文作者统计(DataWhale)

主题：论文作者统计统计所有论文作者出现频率Top10的姓名import seaborn as snsfrom bs4 import BeautifulSoupimport reimport requestsimport jsonimport pandas as pd import matplotlib.pyplot as plt1. 数据读取def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title',

2021-01-16 00:13:29 744 1

原创 Day01-数据分析实战-论文数量统计(DataWhale)

一、论文数量统计统计2019年全年计算机各个方向论文数量步骤：1.找到update为2019年的数据2.找出categories为计算机的数据3.统计数量1. 读取原始数据#导入包import seaborn as sns #用于画图from bs4 import BeautifulSoup #爬取数据import re #正则，匹配字符串模式import requests #网络连接，发送网络请求，使用域名获取对应信息import json #读取json格式数据import p

2021-01-14 00:15:24 1114

原创 Day12-Python综合练习2(DataWhale)

一、显卡日志下面给出了3090显卡的性能测评日志结果，每一条日志有如下结构：Benchmarking #2# #4# precision type #1# #1# model average #2# time : #3# ms其中#1#代表的是模型名称，#2#的值为train(ing)或inference，表示训练状态或推断状态，#3#表示耗时，#4#表示精度，其中包含了float, half, double三种类型Benchmarking 2(Inference) 4(float) prec

2021-01-13 22:00:32 542

原创 Day11-Python时序数据(DataWhale)

时序数据import numpy as npimport pandas as pd一、时序中的基本对象(1) 时间戳 (Date times): pandas 中称为 Timestamp，一系列的时间戳可以组成 DatetimeIndex ，将它放到 Series 中后， Series 的类型就变为了 datetime64[ns] ，如果有涉及时区则为 datetime64[ns, tz] ，其中tz是timezone的简写(2) 时间差（Time deltas): pandas中利用 Time

2021-01-10 22:48:21 879

原创 Day10-Python有序数据(DataWhale)

import pandas as pd import numpy as np分类数据一、cat对象1. cat对象的属性(1) pandas 中提供了 category 类型，能够处理分类类型的变量(2) astype将普通序列转换为分类变量df = pd.read_csv('data/learn_pandas.csv', usecols=['Grade','Name','Gender','Height','Weight'])s = df.Grade.ast

2021-01-07 16:56:09 668

原创 Day9-Python文本数据(DataWhale)

文本数据import pandas as pd import numpy as npprint(pd.__version__)1.2.0一、str对象1. str对象的设计意图(1) str 对象是定义在 Index 或 Series 上的属性，专门用于逐元素处理文本内容(2) 对一个序列进行文本处理，首先需要获取其 str 对象(3) 有 str 模块, 许多函数的用法与pandas一致var = 'abcd'str.upper(var) # Python内置str模块'AB

2021-01-06 15:02:02 353

原创 Day8-Python缺失值(DataWhale)

缺失数据import pandas as pd import numpy as np一、缺失信息的统计和删除1. 缺失信息的统计缺失数据可以使用 isna 或 isnull （两个函数没有区别）来查看每个单元格是否缺失，结合 mean 可以计算出每列缺失值的比例，sum可以计算每列缺失值的总数：df = pd.read_csv('data/learn_pandas.csv', usecols=['Grade','Name','Gender','Height','

2021-01-03 22:33:01 524

原创 Day7-Python综合作业1(DataWhale)

import numpy as npimport pandas as pdimport math任务1：企业收入的多样性一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标：其中 p(x)是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份，在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据，在前一张表中增加一列表示该公司该年份的收入熵指标I思路：1.将company_data表转换位

2021-01-01 22:48:41 658

liying_tt的博客