自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 DataWhale之数据分析练习5:作者信息关联

任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 社交网络分析 图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通

2021-01-25 13:10:10 284

原创 DataWhale之数据分析练习4:论文种类分类

1 任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 2 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型; 3 文本分类思路 思路1:TF-IDF+机器学习分类器 直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器

2021-01-21 13:04:35 318

原创 DataWhale之数据分析练习3:论文代码统计

环境和依赖包导入 import re # 用于正则表达式,匹配字符串的模式 import json # 读取数据,我们的数据为json格式的 import pandas as pd # 数据处理,数据分析 import matplotlib.pyplot as plt # 画图工具 读取数据源,读取100w行数据,全部读取运行时间较长 data = [] # 初始化 #使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常 with open("arxiv-metada

2021-01-18 19:03:09 297

原创 DataWhale之数据分析练习2:论文作者统计

任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 读取原始数据处理 data = [] with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for index, line in enumerate(f): # 通过迭代器的方式读取大文件,可以通过判断索引index的大小控制读取的数据

2021-01-15 10:38:10 199 1

原创 DataWhale之数据分析练习操作

一.获取测试数据源 获取arxiv数据源 二.读取数据源并进行处理 导入相应的模块 import requests from bs4 import BeautifulSoup import re import json import pandas as pd 数据读取 data = [] # 初始化 #使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常 #由于数据源文件较大,建议处理的时候通过枚举的方式,通过控制索引 控制读取数据的数量 with open("ar

2021-01-13 12:32:17 630

原创 hive优化

一.表链接优化: 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/streamtable(table_name) 使用相同的连接键当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。 尽量原子化操作尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂

2021-01-08 11:57:12 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除