自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 task05 爬虫入门与综合应用

1、爬虫需要的相关库介绍Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法:pip install requests或者conda安装conda install requests介绍requests模块的基本属性功能requests.status_code 响应的HTTP状态码requests.text 响应内容的字符串形式requests.content

2021-06-28 19:26:23 311

原创 task05 爬虫入门与综合应用

## 0.前言对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。## 1.Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法:```pythonpip install requests或者conda安装conda inst.

2021-06-26 22:22:10 265

原创 task04 办公自动化之Python 操作 PDF

# 基本库导入import pandas as pdimport numpy as np1、相关库了解利用python操作pdf会用到两个库,分别是:PyPDF2 和 pdfplumber其中PyPDF2可以读取,写入,分割,合并PDF文件,而pdfplumber可以更好地读取PDF文件中的内容以及提取PDF中的表格由于这两个库都不是 Python 的标准库,所以在使用之前都需要单独安装2、批量拆分将一个完成的PPDF拆分成几个小PDF。因为涉及到PDF的拆分,所以需要用到PyPDF2这个

2021-06-23 23:07:16 728

原创 task03 python自动化之word操作

import pandas as pd import numpy as np1. 了解word文档word文档包括文档 Document段落 Paragraph文字块 Runpython-docu将整个文档看成一个Document对象,具体解析如下:每个Document(文档)对象包含多个Paragraph(段落)对象,存放在Document.Paragraphs中每个Paragraph(段落)包含多个Run(文字块)对象,存放在paragraph.runs中python-do

2021-06-20 19:18:43 380

原创 task02 Python自动化之Excel

本次学习资料均来自datawhalehttps://github.com/datawhalechina/team-learning-program/blob/master/OfficeAutomationimport pandas as pdimport numpy as npfrom openpyxl import load_workbookexl = load_workbook("test.xlsx")print(exl.sheetnames) # 获得表格的所有sheet名['w

2021-06-17 20:15:37 122

原创 办公自动化打卡 task01

本次学习内容均来自DataWhale第26期组队学习https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutomationimport pandas as pdimport numpy as np1、文件自动化处理1.1 读写文件1.1.1 文件名和文件路径os.path.join()是用于路径拼接的语法:os.path.join([path_1],[path_2],[path_3],…)

2021-06-16 23:19:05 273

原创 违约预测模型后续工作

一、 从概率到分数1、评分卡分数计算逻辑回归模型得到两个信息,一是哪些特征是比较重要的,二是每个客户是否会违约的一个概率。至此模型并不是直接就能用了。实际我们不会直接用这个概率,而是将其映射到一些分数段当中。(1)计算公式:上述p:指违约概率:p越大,p/(1-p)越大,y越大,Base Point减去一个大的数,那score就会越小。就是说,违约概率p越大,最后的分数score越小,这个和实际逻辑也是相通的。·Base Point:基准分,没有实际意义·PDO:points to dou

2020-08-11 14:27:35 2035

原创 评分卡模型变量筛选

变量筛选用户的属性很多,如果全部输入模型,时间开销太大,而且模型复杂度过高。也会导致模型泛化能力降低,需要提前剔除没有意义的变量。挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。变量筛选的目的和作用(1)剔除和目标

2020-08-08 19:03:42 3291 1

原创 申请评分卡模型数据预处理(二)

变量筛选用户的属性有千千万万个维度,而评分卡模型所选用的字段在30个以下,那么怎样挑选这些字段呢?挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。1.单变量筛选单变量的筛选基于变量预测能力,常用方法:基于IV值

2020-08-06 17:11:35 857

原创 申请评分卡模型数据预处理

一、获取数据2.1 数据获取数据的获取途径主要有两个:金融机构自身字段:例用户的年龄,户籍,性别,收入,负债比,在本机构的借款和还款行为等;第三方机构的数据:如用户在其他机构的借贷行为,用户的消费行为数据等。申请评分卡常用的特征个人信息: 学历、 性别、 收入负债信息: 在本金融机构或者其他金融机构负债情况消费能力: 商品购买纪录、出境游、奢侈品消费历史信用记录: 历史逾期行为新兴数据: 人际社交、 网络足迹、 出行 、个人财务每一行代表一个样本(一笔成功成交借款),每个样本包

2020-07-30 18:39:11 1684 1

原创 评分卡模型案例(一)| 基础知识

1. 评分卡模型的背景知识风控顾名思义就是风险控制,指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险事件发生时造成的损失。1.1 什么是信用风险?交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型1.2 金融交易过程中相关概念违约概率(probability of default, PD)指借款人在未来一定时期内发生违约的可能性。这个说法包含了两个方面,一是单

2020-07-29 16:45:51 6229

原创 银行客户流失预警模型(四) | 神经网络的应用

什么是神经网络?神经网络也是机器学习的一种模型,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。简单理解就是它试图模仿人类大脑信息在神经元上的传递,以及信息处理的方式。一个计算模型要被称为神经网络,需要大量的彼此连接的节点(也叫做神经元)。神经元具备以下特点:(1)每个神经元通过某个特定的输出函数(激励函数)来处理来自其他神经元加权处理的输入值(2)神经元之间的信息传递用加权值定义,

2020-07-28 22:01:46 1526

原创 银行客户流失预警(三)| GBDT的应用

要介绍GBDT之前,先介绍一个基础成员,决策树。什么是决策树?决策树是最简单的机器学习算法,它易于实现,可解释性强,完全符合人类的直观思维,有着广泛的应用。其可作为分类算法,也可用于回归模型。从名字可知,这是一棵树,它是基于特征构建一颗层层推理的树,主要由根节点,内部结构和叶子节点组成。 根节点:包含样本的全集 内部节点点:对应特征属性测试 叶节点:代表决策的结果实际预测时,在内部节点使用某一属性值判断,根据判断结果决定进入哪一个分支,直到达到叶子节点,得到分类结果。决策树学习的三个

2020-07-27 15:45:40 975

原创 银行业客户流失预警模型(二)| 数据预处理和特征衍生

1.极端值处理1.1 极端值定义极端值也称离群值,可能会影响模型精度,进而影响预测结果。极端值对于不同的模型,影响不同,虽然处理极端值并不是数据预处理的必经流程,但是我们需要知道极端值的存在对最终结果的影。一般回归模型对极端值非常敏感,需要处理。而决策树,KNN对极端值影响并不大,可以选择不处理。1.2 极端值的检测检测极端值有很多方法,最直观的就是可视化检测。###如何量化判断极端值呢?###我们一般将三个标准差以外的值称为极端值。1.3极端值的处理(1)删除极端值:如果数据量足够大

2020-07-26 18:13:22 1910

原创 银行业客户流失预警模型(一)| 业务介绍

银行业客户群体1.银行的个人客户银行对个人客户的主要业务是:为个人客户合理安排个人财务,具体有(1)存款,取款(2)小额贷款(3)代理投资理财(4)信息咨询(5)其他各类中介服务目的:为客户取得收益,并帮助其防范风险,同时提高银行自身效益客户分类分类:一般客户:主要以存折,存单,账户,借记卡业务为主消费信贷客户:以资产业务为主,主要指房贷,车贷,耐用品消费品贷款信用卡客户:一般是面向社会各阶层人士提供的小额短期信贷款,支付,转账业务等贵宾理财客户:指收入高,财富多的

2020-07-26 16:19:47 5993 1

原创 数据分析基础知识复习

数分析基础知识从广义的角度,数据分析分为三个方面体包括** ‘数据分析’,‘数据挖掘’,‘模型算法’**。数据分析:偏重于数理统计,用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论。数据挖掘:指从大量的数据中通过算法搜索隐藏于其中信息的过程,一般这个过程是计算机来实现。最经典且流传已久的数据挖掘成功案例:"尿布与啤酒"的故事。数据分析使用环境数据分析在具体业务中的使用环境:①业务逻辑清晰,指标明确。例如:我要分析某网店营销情况,指标:销售额= 人均金额 X 人数,消费人数 =

2020-07-26 11:43:48 1732

原创 推荐系统基础知识

一、什么是推荐系统随着互联网的发展,信息不断丰富的同时,也带来了信息过载问题。用户在面对海量信息的时候越来越难以区分。搜索引擎能够帮助用户根据关键词来筛选需要的信息,但是当用户无法明确关键词的时候,选择困难症患者就要发愁了。推荐系统可以通过一定的方式将用户和物品(比如文章、物品、视频、好友信息等)联系起来,从而帮助用户发现他们可能感兴趣的信息。推荐系统需要依赖用户行为数据,并通过应用的个性化页面展示推荐结果,进而提高应用的点击率和转化率。二、应用场景在电商领域,比较典型的是亚马逊的个性化推荐系统,被

2020-07-17 15:45:04 1212

原创 文章推荐系统(三) | 构建离线文章画像

前面我们已经计算得到tfidf的结果‘tfidf_keywords_values’和textrank的结果‘textrank_keywords_values’。下面要计算基于tfidf和textrank计算离线文章画像所谓文章画像,就是给文章定义一些主题词和关键词,用来代表这篇文章。关键词和主题词最大的区别在于主题词是经过规范化处理的。关键词是文章中权重较高的词。这个项目中,我们采用tfidf和textrank两种方式得到了每篇文章两组权重前20的词组,对于如何确定主题词和关键词,我们处理的

2020-07-13 11:20:41 526

原创 黑马头条推荐项目知识点总结(二)

推荐阅读:黑马头条推荐项目知识点总结(一)https://blog.csdn.net/better_zhao/article/details/107239145在上述步骤中,我们已经将业务数据和用户行为数据同步到了推荐系统数据库当中,接下来,我们就要对文章数据和用户数据进行分析,构建文章画像和用户画像。本文我们主要讲解如何构建文章画像。文章画像由关键词和主题词组成,我们将每个词的 IDF 权重和 TextRank 权重的乘积作为关键词权重,筛选出权重最高的 K 个词作为关键词;将 TextRank

2020-07-12 13:27:22 1738

原创 黑马头条推荐项目知识点总结(一)

实际生产环境中,我们要处理的数据来自可能各个地方,业务数据库,爬虫数据库,日志文件,api网关买入数据等。本次黑马头条推荐项目中,业务数据存储在mysql中,用户行为数据存储在日志中,因此采用两种技术手段将业务数据和日志数据传输到Hadoop中。一、迁移数据库业务数据存储在mysql中,为了避免直接操作业务数据,利用sqoop导入到hive表中(底层数据就是存储在HDFS上)业务数据不是一次导入就结束,每天都会产生很多新的业务数据,因此这里就涉及到利用sqoop导入数据到hive的方式。Sqoop

2020-07-09 23:23:29 4971 5

原创 Hdoop生态系统学习总结

Google发表的三篇论文:HFS ,MapReduce,bigtable和传统的单机操作相比,大数据解决的就是大数据的存储和大数据的计算问题 Hadoop是一个分布式基础架构,具有4高的特点:高可靠性:副本机制高扩展性:随时横向增加计算机,扩大集群高效性:多个数据节点可以同时并行工作,提高效率高容错性:能够将失败的任务重新分配Hadoop从广义上来说是只hadoop生态圈,从狭义上来说,就是HDFS,Yarn,MapReduce【重点:hadoop 1.x V.S Hadoop

2020-07-06 00:44:49 430

原创 推荐系统简介

一、推荐系统的目的:①用户更好更快地获得自己想要的②内容能更好地被推荐给喜欢它的用户③平台能够留存更多的用户资源二、推荐系统基本思想1、精准推送根据用户的特征喜好,直接匹配包含此特征的产品2、物以类聚利用物品的相似性,根据用户喜欢过的商品的特征,推荐有相似特征的商品;3、人以群分利用用户和用户的相似性,某类商品被一类人群喜欢(比如18-25岁的女性群体),给属于同样群体的用户推荐该类产品;三、推荐系统分类1、基于人口统计学的推荐算法根据用户信息,例如年龄,性别等,找到用户之间的相

2020-06-12 22:21:53 908

原创 python | print()

python3 | print()语句print()内的语句可以用加号"+ " 或者逗号"," 进行拼接,但是两者最后显示的效果却不同加号拼接逗号拼接如图所示,用逗号拼接的结果,中间会多出一下空格...

2020-01-05 15:24:31 416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除