数据分析
文章平均质量分 93
一一张xi
这个作者很懒,什么都没留下…
展开
-
【python办公自动化】task5 爬虫入门与综合应用
目录1. Requests简介2. 简单爬取2.1 对百度首页数据进行请求2.2 用爬虫下载孔乙己的文章2.3 爬取图片3.HTML解析和提取3.1 浏览器工作原理3.2 BeautifulSoup介绍1. Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装pip install requests一些常用方法requests.get('网址') #发出响应请求r原创 2021-07-02 17:54:31 · 535 阅读 · 0 评论 -
【python办公自动化】task3 Python与Word
目录1.word操作1.1 word基本介绍1.2 新建空白word并插入文字1.3 整体页面介绍1.4 字体设置1.5 插入图片与表格1.6 设置页眉和页脚1.7 扩展2. 实践预备知识使用前需要先安装python-docx库pip3 install python-docx1.word操作1.1 word基本介绍一个word文档的页面结构包括以下三个方面:文档-Document段落-Paragrapg文字块-Runpython-docx将整个文章看做是一个Document对象 ,其原创 2021-06-20 22:57:09 · 167 阅读 · 0 评论 -
【数据分析】异常值与缺失值
异常值与缺失值1、缺失值分析与处理1.1 造成缺失的原因1.2 缺失的一般处理方法1.3 数据集介绍及缺失值填充参考文献1、缺失值分析与处理1.1 造成缺失的原因由于数据采集设备、传输线路故障等机械原因或者记录失误等认为原因,数据缺失通常难以避免,造成缺失的原因主要有以下几种数据暂时无法获取数据在采集过程中被遗漏或丢弃某些对象的部分特征值不存在获取数据比较困难1.2 缺失的一般处理方法直接删除:当少数样本存在多列特征缺失时,可以将这些样本整行删除;当某列特征大部分缺失时,可将这列属原创 2021-06-01 15:58:43 · 7108 阅读 · 2 评论 -
【数据分析-学术前沿趋势分析】 Task5 作者信息关联
Task5 作者 信息关联1. 任务说明2. 数据处理步骤3. 社交网络分析3.1图类型3.1 图统计指标4. networkx库5. 代码实现Datawhale一月份的组队学习~关键词:数据分析、爬虫、文本分析开源地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends1. 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最长出现的作者关系学原创 2021-01-26 00:03:40 · 298 阅读 · 0 评论 -
【数据分析-学术前沿趋势分析】 Task4 论文种类分类
Task4 论文种类分类1. 任务说明2. 数据处理步骤3. 文本分类思路4. 具体代码实现4.2 使用TF-IDF+机器学习分类器进行文本分类4.2 使用深度学习模型Datawhale一月份的组队学习~关键词:数据分析、爬虫、文本分析开源地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends1. 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类原创 2021-01-23 00:33:32 · 140 阅读 · 0 评论 -
【数据分析-学术前沿趋势分析】 Task3 论文代码统计
Task3 论文代码统计1. 任务说明2. 数据处理步骤3. 正则表达式4.具体代码实现以及讲解Datawhale一月份的组队学习~关键词:数据分析、爬虫、文本分析开源地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends1. 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式原创 2021-01-20 00:28:16 · 103 阅读 · 0 评论 -
【数据分析-学术前沿趋势分析】 Task2 论文作者统计
Task2 论文作者统计1. 任务说明2. 数据处理步骤3. 字符串处理4. 具体代码实现以及讲解4.1 数据读取4.2 数据统计Datawhale一月份的组队学习~关键词:数据分析、爬虫、文本分析开源地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends1. 任务说明任务主题:论文作者统计,统计所有论文作者出现频率Top10的姓名任务内容:论文作者的统计、使用Pand原创 2021-01-16 22:54:54 · 108 阅读 · 0 评论 -
【数据分析-学术前沿趋势分析】 Task1 论文数据统计
task1 论文数据统计1. 任务说明2. 数据集介绍3. 代码实现3.1 导入包并读取原始数据3.2 数据预处理3.2数据分析及可视化1. 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目2. 数据集介绍数据集来源https://www.kaggle.com/Cornell-U原创 2021-01-13 21:18:09 · 231 阅读 · 0 评论 -
使用python数据分析中常用技巧
数据分析中常用技巧批量导入文件仅做个人记用,具体内容慢慢补充批量导入文件import pandas as pdimport numpy as np#glob用于批量读取文件,gc用于释放内存import glob, gcpaths = glob.glob('../input/taxiGps20190*.csv')paths.sort()speed = []for path in paths: df = pd.read_csv(path) df['GPS_TIME原创 2020-09-17 15:52:05 · 94 阅读 · 0 评论 -
【数据分析进阶】DCIC竞赛-task2 数据可视化
【数据分析进阶】DCIC竞赛-task2 数据可视化数据可视化介绍数据可视化介绍数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。下图,未来美国的人口统计数据(不同年龄阶段)...原创 2020-09-11 08:52:40 · 998 阅读 · 0 评论 -
【数据分析进阶】DCIC竞赛-task1 数据读取
【数据分析进阶】DCIC竞赛-task1 数据读取学习目标赛题介绍赛题思路赛题数据数据读取pandas介绍numpy介绍读取代码课堂任务学习目标下载数据集并理解赛题具体的背景理解并书里清楚赛题的任务完成赛题数据的读取赛题介绍赛题名称:A城市巡游车与网约车运营特征对比分析赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出租车原创 2020-09-10 21:21:42 · 597 阅读 · 0 评论 -
【数据分析进阶】DCIC竞赛-task0准备工作
数据分析进阶-DCIC竞赛task00学习内容介绍DCIC赛题介绍准备工作互动答疑学习视频https://www.bilibili.com/video/BV1tz4y1f7Wg?p=2赛事详情https://data.xm.gov.cn/opendata-competition/index.html#/contest_explain共有三个部分的竞赛1)端午假期A城市交通网络拥堵识别及缓堵策略研究需要具有从经纬度映射到路段的能力2)A城市巡游车与网约车与运营特征对比分析主要是对出租车和网约车原创 2020-09-07 08:46:31 · 351 阅读 · 0 评论 -
【数据分析入门】Task 05 数据建模及模型评估
【数据分析入门】Task 05 数据建模及模型评估第三章 模型搭建和评估3.1 模型搭建3.1.1 数据导入及介绍3.1.2 模型搭建3.1.2.1 概述3.1.2.2 sklearn的算法选择路径3.1.2.3划分训练集和测试集(1)train_test_split方法(2)ShuffleSplit方法3.1.2.4 模型创建(1)逻辑回归法(2)随机森林法3.1.3输出模型预测结果3.2 模型评估3.2.1 交叉验证3.2.2 混淆矩阵3.2.3 准确度、精确度、召回率和F1值3.2.4 ROC曲线3.原创 2020-08-27 21:52:44 · 940 阅读 · 0 评论 -
【数据分析入门】Task 04 数据可视化
【数据分析入门】Task 04 数据可视化2.7 数据可视化2.7.1 matplotlib简介2.7.2 matplotlib绘图基础(1) Figure对象(2) add_subplot添加子图(3) Axes坐标轴(4)plot函数2.7.3 pandas中绘图(1)Series.plot方法的参数(2)DataFrame.plot的参数(3)图例注解相关函数plt.lengend()(4)常见可视化图形2.7.4 Seaborn2.7.4 对泰坦尼克号数据集的数据可视化探索任务一:导入数据和包任务二原创 2020-08-25 19:58:49 · 250 阅读 · 0 评论 -
【数据分析入门】Task03 数据重构
【数据分析入门】Task 03 数据重构2.4 数据重构2.4.1 数据介绍2.4.2 数据合并(1)concat方法(2)append方法(3)merge方法(4)join方法2.5 换一种角度看数据2.5.1 stack和unstack函数2.6 数据运用2.6.1 groupby函数2.4 数据重构2.4.1 数据介绍本例子中一共给了四个文件,是泰坦尼克号训练集的切分,点击下载文件原始的泰坦尼克号训练集大小:891*12,需要用到的四个文件文件名内容大小train-l原创 2020-08-23 21:35:26 · 255 阅读 · 0 评论 -
【数据分析入门】Task02 数据清洗及特征处理
【数据分析入门】Task 02数据清洗及特征处理第二章(PART 1):数据清洗及特征处理2.1缺失值观察与处理2.1.1 缺失值观察2.1.2 对缺失值进行处理2.2 重复值观察与处理2.2.1 查看数据中的重复值2.2.2 处理重复值2.3 特征观察与处理2.3.1 对连续数据进行分箱(离散化处理)操作2.3.2 查看类别文本变量名及种类2.3.3 对文本类别进行转换2.3.4 对特定文本进行提取第二章(PART 1):数据清洗及特征处理我们拿到的数据通常是不干净的,即数据中有缺失值,有一些异常点等原创 2020-08-21 20:21:05 · 634 阅读 · 0 评论 -
【数据分析入门】Task 01数据加载及探索性数据分析
【数据分析入门】Task 01数据加载及探索性数据分析1 第一章(PART 1):数据加载1.1 载入数据1.1.1 导入numpy和pandas1.1.2 载入数据1.1.3 通过逐块读取提升处理效率1.1.4 将表头改成中文,索引改成乘客ID1.2 初步观察1.2.1 查看数据的基本信息1 第一章(PART 1):数据加载1.1 载入数据kaggle泰坦尼克号获救数据集地址:https://www.kaggle.com/c/titanic/data1.1.1 导入numpy和pandasi原创 2020-08-18 00:24:52 · 459 阅读 · 0 评论