自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 OfficeAutomation——Task05 爬虫入门与综合应用

OfficeAutomation——Task05 爬虫入门与综合应用爬虫:requestsBeautifulSoupXPathselenium本人较常使用XPath & selenium一个随机切换user_agent的第三方python库:my_fake_useragentimport my_fake_useragent as uaif __name__ == '__main__': user_agent = ua.UserAgent() # 方法1

2021-06-25 23:46:05 128

原创 OfficeAutomation——Task04 Python 操作 PDF

OfficeAutomation——Task04 Python 操作 PDFlinks:https://github.com/datawhalechina/team-learning-program/blob/master/OfficeAutomation/Task04%20Python%E6%93%8D%E4%BD%9CPDF.md批量拆分批量合并提取文字内容提取表格内容提取图片内容转换为图片7.1 安装 pdf2image7.2 安装组件添加水印文档加密与解密Python

2021-06-24 02:52:03 155

原创 OfficeAutomation——Task03 python自动化之word操作

python自动化之word操作1.课前准备2.知识要点2.1初步认识docx2.1.1新建空白word并插入文字2.2python自动化之word操作2.2.1整体页面结构介绍2.2.2字体设置2.2.3插入图片与表格2.2.4设置页眉页脚2.2.5代码延伸3.项目实践3.1需求3.2需求分析...

2021-06-23 21:23:42 123

原创 OfficeAutomation——Task01 文件自动化处理&邮件批量处理

Task01 文件自动化处理&邮件批量处理1 文件自动化处理1.1 读写文件1.1.1 文件与文件路径1.1.2 当前工作目录1.1.3 路径操作1.1.3.1 绝对路径和相对路径1.1.3.2 路径操作1.1.3.3 路径有效性检查1.1.4 文件及文件夹操作1.1.4.1 用os.makedirs()创建新文件夹1.1.4.2 查看文件大小和文件夹内容1.1.5 文件读写过程1.1.5.1 用open()函数打开文件1.1.5.2 读取文件内容1.1.5.3 写入文件1.1.5.4 保

2021-06-18 19:22:24 123

原创 OfficeAutomation——Task02 Python自动化之Excel

这里写自定义目录标题Python自动化之Excel0.包的安装1.Excel读取1.1读取对应表格1.2读取单元格1.3读取多个格子的值1.4练习题2.Excel写入2.1写入单元格并保存2.2写入行数据并保存2.3将公式写入单元格保存2.4插入列数据2.5插入行数据2.6删除2.7移动2.8Sheet表操作2.9创建新的Excel表3.Excel 样式3.1设置字体样式3.2设置对齐样式3.3设置行高与列宽3.4合并、取消合并单元格3.5练习题转自datawhalehttps://github.com

2021-06-18 19:13:41 114

原创 [金融风控-贷款违约预测] ——task1 赛题理解

[金融风控-贷款违约预测] ——task1 赛题理解1.赛题数据及背景1.1 赛题背景1.2 赛题流程引言&复习本章将开始数据建模。过程将综合使用所学知识:特征工程、模型搭建与模型评估。1.赛题数据及背景数据集来源:阿里云天池学习赛【金融风控-贷款违约预测】:1.1 赛题背景赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助

2020-09-13 23:38:11 409

原创 动手学数据分析—5.数据建模及模型评估

动手学数据分析—5.数据建模及模型评估一、 特征工程1.1缺失值填充1.2编码分类变量二、模型搭建tips12.1切割训练集和测试集tips2Q12.2 模型创建tips3Q22.3 输出模型预测结果tips4Q3三、模型评估3.1 交叉验证tips5Q43.2 混淆矩阵tips6Q53.3 ROC曲线tips7Q6引言&复习本章将开始数据建模。过程将综合使用所学知识:特征工程、模型搭建与模型评估。import pandas as pdimport numpy as npimport s

2020-08-27 23:04:35 710

原创 动手学数据分析—4.数据可视化

动手学数据分析—4.数据可视化一、图表介绍二、可视化工具Matplotlib2.1 准备数据2.1.1 一维数据2.1.2 二维数据或图片2.2 绘制图形2.2.1 画布2.2.2 坐标轴2.3 绘图流程2.4 自定义图像2.4.1 颜色、色条与色彩表2.4.2 标记2.4.3 线型2.4.4 文本与标注2.4.5 尺寸限制、图例和布局2.5 保存图像2.6 显示图像2.6.1 关闭与清除引言&复习本章的学习可参考《Python for Data Analysis》第九章主要使用工具:matp

2020-08-25 23:45:27 188

原创 数据挖掘实践(资金流入流出预测)—8.总结

数据挖掘实践(资金流入流出预测)—8.总结写在最后按照计划,至少会有第七步:模型的实战,后续补上。感谢这次限时提升的机会,后续会慢慢填坑掌握数据(尤其是时序数据)划分方法、建模流程掌握常用的回归模型,熟悉模型融合方法利用相关方法和工具完成资金流入流出预测赛题任务...

2020-08-25 22:48:30 178

原创 数据挖掘实践(资金流入流出预测)—6.建模预测(一)

数据挖掘实践(资金流入流出预测)—6.建模预测(一)一、模型训练与验证**tips**:1.1 常用的回归模型1.1.1 线性回归1.1.2 逻辑回归1.1.3 决策树1.1.4 随机森林1.1.5 梯度提升树引言这次我们要开始数据建模预测了。我们先从模型训练与验证开始。模型训练、预测及线下验证常用的回归模型模型融合一、模型训练与验证那么数据该如何划分呢?训练集、线下验证集、线下测试集、线上测试集无时序的数据集:简单划分、交叉验证划分等有时序的数据集:需考虑时序,nested交

2020-08-24 23:06:17 817

原创 动手学数据分析—3.数据重构

动手学数据分析—3.数据重构一、数据重构1.1 数据的合并1.1.1载入数据,与原数据对比1.1.2 横向合并表1.1.3 纵向合并表1.1.4 使用DataFrame自带的方法join方法和append1.1.5 使用Panads的merge方法和DataFrame的append方法引言&复习在上一章的学习中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。# 导入基本库

2020-08-23 23:53:00 203

原创 数据挖掘实践(资金流入流出预测)—5.特征工程

数据挖掘实践(资金流入流出预测)—5.特征工程一、特征选择1.1 Filter1.1.1 方差选择法1.1.2 相关系数法1.1.3 卡方检验引言在数据预处理之前,我们先来了解下特征工程。特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”。特征工程是数据挖掘过程中一步十分重要的步骤,也是建模步骤的基础和准备。一、特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通

2020-08-23 23:09:23 277

原创 数据挖掘实践(资金流入流出预测)—4.时间序列模型

数据挖掘实践(资金流入流出预测)—4.时间序列模型一、时间序列预测模型1.1 时间序列分解1.1.1 分解方法1.1.2 STL分解1.2 ARIMA模型1.2.1 自回归模型AR1.2.2 移动平均模型MA1.2.3 自回归移动平均模型ARMA1.2.4 差分自回归移动平均模型ARIMA1.3 建立ARIMA模型的过程1.3.1 模型识别和定阶1.3.2 参数估计1.3.3 模型检验写在开头上一节介绍了时间序列分析这一在量化投资中广泛使用的优秀技术,本次将对其模型展开学习。这会是一篇长更新的文章,

2020-08-22 23:39:35 533

原创 数据挖掘实践(资金流入流出预测)—3.时间序列规则

数据挖掘实践(资金流入流出预测)—3.时间序列规则一、时间序列分析1.1 定义1.2 特点1.3 时间序列建模基本步骤1.4 类型1.5 时间序列预测法引言&目标掌握时间序列规则的基本方法首先认识各种概念与规则,从时间序列分析开始。一、时间序列分析时间序列分析(time series analysis)是量化投资中的一门基本技术,即指在一定时间内按时间顺序测量的某个变量的取值序列。对股票价格而言,随时间变化是一个时间序列;对气温而言,随时间变化也是一个时间序列;再对金融产品而言,投资品的收

2020-08-21 23:06:52 422

原创 动手学数据分析—2.数据清洗及特征处理

动手学数据分析—2.数据清洗及特征处理一、数据清洗1.1 缺失值观察和处理1.1.1缺失值观察1.1.2处理缺失1.2重复值观察与处理1.2.1查看数据中的重复值1.2.2处理重复值2.特征观察与处理2.1对文本进行转换2.2提取特征引言&复习在上一章的学习中,我们对基础知识做了一个简易梳理,通过对数据的各个角度进行观察,从而对数据分析的一些操作有了初步认识。这一章,我们将对数据分析进行流程性学习,主要包括数据清洗、特征处理,数据重构以及数据可视化。而这些内容又为最后的建模和模型评价做了铺垫。

2020-08-21 22:33:07 206

原创 数据挖掘实践(资金流入流出预测)——2.数据探索与分析

数据挖掘实践(资金流入流出预测)——2.数据探索与分析一、探索性数据分析的思想与流程1.1 常见数据探索方法1.2 数据来源及介绍理论部分了解探索性数据分析的思想与流程熟悉常用的数据绘图与统计分析方法了解针对时间序列数据的分析方法实战部分完成数据探索与分析的代码一、探索性数据分析的思想与流程探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。1.1 常

2020-08-20 23:53:25 170

原创 动手学数据分析——1.数据加载及探索性数据分析

动手学数据分析——1.数据加载及探索性数据分析一、数据加载1.1 载入数据1.1.1 导入数据科学库numpy和pandas1.1.2 载入数据1.1.3 每1000行为一个数据模块,逐块读取1.1.4 修改表头语言类型,设置索引列1.2.初步观察1.2.1 查看数据基本信息1.2.2 观察表格前10行的数据和后15行的数据1.2.3 判断数据是否为空,为空的地方返回True,其余地方返回False1.3保存数据二、Pandas基础2.1.找到数据集并花式查看2.1.1 DataFrame与Series数据

2020-08-19 23:53:44 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除