ZJJBFQ-CSDN博客

原创 task05 爬虫入门与综合应用

1、爬虫需要的相关库介绍Requests是一款目前非常流行的http请求库，使用python编写，能非常方便的对网页Requests进行爬取，也是爬虫最常用的发起请求第三方库。安装方法：pip install requests或者conda安装conda install requests介绍requests模块的基本属性功能requests.status_code 响应的HTTP状态码requests.text 响应内容的字符串形式requests.content

2021-06-28 19:26:23 421

原创 task05 爬虫入门与综合应用

## 0.前言对于自动化办公而言，网络数据的批量获取完数据可以节约相当的时间，因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍，力求最大程度还原实际的办公场景。## 1.Requests简介Requests是一款目前非常流行的http请求库，使用python编写，能非常方便的对网页Requests进行爬取，也是爬虫最常用的发起请求第三方库。安装方法：```pythonpip install requests或者conda安装conda inst.

2021-06-26 22:22:10 367

原创 task04 办公自动化之Python 操作 PDF

# 基本库导入import pandas as pdimport numpy as np1、相关库了解利用python操作pdf会用到两个库，分别是：PyPDF2 和 pdfplumber其中PyPDF2可以读取，写入，分割，合并PDF文件，而pdfplumber可以更好地读取PDF文件中的内容以及提取PDF中的表格由于这两个库都不是 Python 的标准库，所以在使用之前都需要单独安装2、批量拆分将一个完成的PPDF拆分成几个小PDF。因为涉及到PDF的拆分，所以需要用到PyPDF2这个

2021-06-23 23:07:16 891

原创 task03 python自动化之word操作

import pandas as pd import numpy as np1. 了解word文档word文档包括文档 Document段落 Paragraph文字块 Runpython-docu将整个文档看成一个Document对象，具体解析如下：每个Document(文档)对象包含多个Paragraph(段落)对象，存放在Document.Paragraphs中每个Paragraph(段落)包含多个Run(文字块)对象，存放在paragraph.runs中python-do

2021-06-20 19:18:43 523

原创 task02 Python自动化之Excel

本次学习资料均来自datawhalehttps://github.com/datawhalechina/team-learning-program/blob/master/OfficeAutomationimport pandas as pdimport numpy as npfrom openpyxl import load_workbookexl = load_workbook("test.xlsx")print(exl.sheetnames) # 获得表格的所有sheet名['w

2021-06-17 20:15:37 216

原创办公自动化打卡 task01

本次学习内容均来自DataWhale第26期组队学习https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutomationimport pandas as pdimport numpy as np1、文件自动化处理1.1 读写文件1.1.1 文件名和文件路径os.path.join()是用于路径拼接的语法：os.path.join([path_1],[path_2],[path_3],…)

2021-06-16 23:19:05 429

原创违约预测模型后续工作

一、从概率到分数1、评分卡分数计算逻辑回归模型得到两个信息，一是哪些特征是比较重要的，二是每个客户是否会违约的一个概率。至此模型并不是直接就能用了。实际我们不会直接用这个概率，而是将其映射到一些分数段当中。（1）计算公式：上述p：指违约概率：p越大，p/(1-p)越大，y越大，Base Point减去一个大的数，那score就会越小。就是说，违约概率p越大，最后的分数score越小，这个和实际逻辑也是相通的。·Base Point：基准分，没有实际意义·PDO：points to dou

2020-08-11 14:27:35 2220

原创评分卡模型变量筛选

变量筛选用户的属性很多，如果全部输入模型，时间开销太大，而且模型复杂度过高。也会导致模型泛化能力降低，需要提前剔除没有意义的变量。挑选入模变量需要考虑很多因素，比如：变量的预测能力，变量之间的线性相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选，变量两两相关性分析，变量的多重共线性分析。变量筛选的目的和作用（1）剔除和目标

2020-08-08 19:03:42 3625 1

原创申请评分卡模型数据预处理(二)

变量筛选用户的属性有千千万万个维度，而评分卡模型所选用的字段在30个以下，那么怎样挑选这些字段呢？挑选入模变量需要考虑很多因素，比如：变量的预测能力，变量之间的线性相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选，变量两两相关性分析，变量的多重共线性分析。1.单变量筛选单变量的筛选基于变量预测能力，常用方法：基于IV值

2020-08-06 17:11:35 960

原创申请评分卡模型数据预处理

一、获取数据2.1 数据获取数据的获取途径主要有两个：金融机构自身字段：例用户的年龄，户籍，性别，收入，负债比，在本机构的借款和还款行为等；第三方机构的数据：如用户在其他机构的借贷行为，用户的消费行为数据等。申请评分卡常用的特征个人信息：学历、性别、收入负债信息：在本金融机构或者其他金融机构负债情况消费能力：商品购买纪录、出境游、奢侈品消费历史信用记录：历史逾期行为新兴数据：人际社交、网络足迹、出行、个人财务每一行代表一个样本（一笔成功成交借款），每个样本包

2020-07-30 18:39:11 1806 1

原创评分卡模型案例（一）| 基础知识

1. 评分卡模型的背景知识风控顾名思义就是风险控制，指风险管理者采取各种措施和方法，消灭或减少风险事件发生的各种可能性，或风险事件发生时造成的损失。1.1 什么是信用风险？交易对手未能履行约定契约中的义务而造成经济损失的风险，即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性，它是金融风险的主要类型1.2 金融交易过程中相关概念违约概率（probability of default, PD）指借款人在未来一定时期内发生违约的可能性。这个说法包含了两个方面，一是单

2020-07-29 16:45:51 6495

原创银行客户流失预警模型（四） | 神经网络的应用

什么是神经网络？神经网络也是机器学习的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。简单理解就是它试图模仿人类大脑信息在神经元上的传递，以及信息处理的方式。一个计算模型要被称为神经网络，需要大量的彼此连接的节点（也叫做神经元）。神经元具备以下特点：（1）每个神经元通过某个特定的输出函数（激励函数）来处理来自其他神经元加权处理的输入值（2）神经元之间的信息传递用加权值定义，

2020-07-28 22:01:46 1695

原创银行客户流失预警（三）| GBDT的应用

要介绍GBDT之前，先介绍一个基础成员，决策树。什么是决策树？决策树是最简单的机器学习算法，它易于实现，可解释性强，完全符合人类的直观思维，有着广泛的应用。其可作为分类算法，也可用于回归模型。从名字可知，这是一棵树，它是基于特征构建一颗层层推理的树，主要由根节点，内部结构和叶子节点组成。 根节点：包含样本的全集 内部节点点：对应特征属性测试 叶节点：代表决策的结果实际预测时，在内部节点使用某一属性值判断，根据判断结果决定进入哪一个分支，直到达到叶子节点，得到分类结果。决策树学习的三个

2020-07-27 15:45:40 1081

原创银行业客户流失预警模型（二）| 数据预处理和特征衍生

1.极端值处理1.1 极端值定义极端值也称离群值，可能会影响模型精度，进而影响预测结果。极端值对于不同的模型，影响不同，虽然处理极端值并不是数据预处理的必经流程，但是我们需要知道极端值的存在对最终结果的影。一般回归模型对极端值非常敏感，需要处理。而决策树，KNN对极端值影响并不大，可以选择不处理。1.2 极端值的检测检测极端值有很多方法，最直观的就是可视化检测。###如何量化判断极端值呢？###我们一般将三个标准差以外的值称为极端值。1.3极端值的处理（1）删除极端值：如果数据量足够大

2020-07-26 18:13:22 2140

原创银行业客户流失预警模型（一）| 业务介绍

银行业客户群体1.银行的个人客户银行对个人客户的主要业务是：为个人客户合理安排个人财务，具体有（1）存款，取款（2）小额贷款（3）代理投资理财（4）信息咨询（5）其他各类中介服务目的：为客户取得收益，并帮助其防范风险，同时提高银行自身效益客户分类分类：一般客户：主要以存折，存单，账户，借记卡业务为主消费信贷客户：以资产业务为主，主要指房贷，车贷，耐用品消费品贷款信用卡客户：一般是面向社会各阶层人士提供的小额短期信贷款，支付，转账业务等贵宾理财客户：指收入高，财富多的

2020-07-26 16:19:47 6318 1

原创数据分析基础知识复习

数分析基础知识从广义的角度，数据分析分为三个方面体包括** ‘数据分析’，‘数据挖掘’，‘模型算法’**。数据分析：偏重于数理统计，用统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论。数据挖掘：指从大量的数据中通过算法搜索隐藏于其中信息的过程，一般这个过程是计算机来实现。最经典且流传已久的数据挖掘成功案例："尿布与啤酒"的故事。数据分析使用环境数据分析在具体业务中的使用环境：①业务逻辑清晰，指标明确。例如：我要分析某网店营销情况，指标：销售额= 人均金额 X 人数，消费人数 =

2020-07-26 11:43:48 1889

原创推荐系统基础知识

一、什么是推荐系统随着互联网的发展，信息不断丰富的同时，也带来了信息过载问题。用户在面对海量信息的时候越来越难以区分。搜索引擎能够帮助用户根据关键词来筛选需要的信息，但是当用户无法明确关键词的时候，选择困难症患者就要发愁了。推荐系统可以通过一定的方式将用户和物品（比如文章、物品、视频、好友信息等）联系起来，从而帮助用户发现他们可能感兴趣的信息。推荐系统需要依赖用户行为数据，并通过应用的个性化页面展示推荐结果，进而提高应用的点击率和转化率。二、应用场景在电商领域，比较典型的是亚马逊的个性化推荐系统，被

2020-07-17 15:45:04 1320

原创文章推荐系统（三） | 构建离线文章画像

前面我们已经计算得到tfidf的结果‘tfidf_keywords_values’和textrank的结果‘textrank_keywords_values’。下面要计算基于tfidf和textrank计算离线文章画像所谓文章画像，就是给文章定义一些主题词和关键词，用来代表这篇文章。关键词和主题词最大的区别在于主题词是经过规范化处理的。关键词是文章中权重较高的词。这个项目中，我们采用tfidf和textrank两种方式得到了每篇文章两组权重前20的词组，对于如何确定主题词和关键词，我们处理的

2020-07-13 11:20:41 574

原创黑马头条推荐项目知识点总结（二）

推荐阅读：黑马头条推荐项目知识点总结（一）https://blog.csdn.net/better_zhao/article/details/107239145在上述步骤中，我们已经将业务数据和用户行为数据同步到了推荐系统数据库当中，接下来，我们就要对文章数据和用户数据进行分析，构建文章画像和用户画像。本文我们主要讲解如何构建文章画像。文章画像由关键词和主题词组成，我们将每个词的 IDF 权重和 TextRank 权重的乘积作为关键词权重，筛选出权重最高的 K 个词作为关键词；将 TextRank

2020-07-12 13:27:22 1922

原创黑马头条推荐项目知识点总结（一）

实际生产环境中，我们要处理的数据来自可能各个地方，业务数据库，爬虫数据库，日志文件，api网关买入数据等。本次黑马头条推荐项目中，业务数据存储在mysql中，用户行为数据存储在日志中，因此采用两种技术手段将业务数据和日志数据传输到Hadoop中。一、迁移数据库业务数据存储在mysql中，为了避免直接操作业务数据，利用sqoop导入到hive表中（底层数据就是存储在HDFS上）业务数据不是一次导入就结束，每天都会产生很多新的业务数据，因此这里就涉及到利用sqoop导入数据到hive的方式。Sqoop

2020-07-09 23:23:29 5325 5

better_zhao的博客

原创 task05 爬虫入门与综合应用

原创 task05 爬虫入门与综合应用

原创 task04 办公自动化之Python 操作 PDF

原创 task03 python自动化之word操作

原创 task02 Python自动化之Excel

原创办公自动化打卡 task01

原创违约预测模型后续工作

原创评分卡模型变量筛选

原创申请评分卡模型数据预处理(二)

原创申请评分卡模型数据预处理

原创评分卡模型案例（一）| 基础知识

原创银行客户流失预警模型（四） | 神经网络的应用

原创银行客户流失预警（三）| GBDT的应用

原创银行业客户流失预警模型（二）| 数据预处理和特征衍生

原创银行业客户流失预警模型（一）| 业务介绍

原创数据分析基础知识复习

原创推荐系统基础知识

原创文章推荐系统（三） | 构建离线文章画像

原创黑马头条推荐项目知识点总结（二）

原创黑马头条推荐项目知识点总结（一）

原创 Hdoop生态系统学习总结

原创推荐系统简介

原创 python | print()

空空如也

空空如也