Python
文章平均质量分 57
abylee
初出茅庐,大部分需求来自导师课题组和工作单位。
展开
-
【python爬虫】爬取深圳证券业协会公布的营业部数据并对pdf文件进行解析
假装目录有用背景抓包导入第三方库爬虫代码pdf解析完整代码背景深圳证券业协会网站公布了辖区内所有证券营业部的股基交易量、净利润、营收数据,免登录就能查看,我们需要获取这部分数据,由于都是pdf文件,所以首先得爬虫获取pdf文件到本地然后对pdf文件进行解析和数据处理。网页链接抓包抓包的实例我之前的文章介绍了很多次了。这回我直接把找到需要的参数展示一下:data = {'typeid':18,'pagesize':40,'pageno':1}导入第三方库import pandas as p原创 2022-03-01 11:32:56 · 1397 阅读 · 0 评论 -
【办公自动化】用pdfplumber读取年报pdf中的表格
用pdfplumber读取年报pdf中的表格思路完整代码效果pdfplumber使用总结思路年报里的表格是长这样的:首先循环读取指定文件夹中的年报pdf,然后用pdfplumber进行解析,再根据需要的关键词定位页码,进一步导出表格内容,将表格转化为list按行写入空列表。最后将二维列表转化为dataframe。完整代码import pandas as pdimport pdfplumberimport os#获取pdf文件名def file_name(file_dir): f原创 2021-06-08 09:46:41 · 1690 阅读 · 2 评论 -
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用“老龄智能”在百度百家号中搜索文章,爬取文章内容和相关信息。观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道。首先看了一下robots.txt,基本上对爬虫没有什么限制。然后就去定位网页元素,我的思路是先把上图搜索页的每篇文章的链接爬取下来,然后放在list里循环访问获取内容,这里再提一下为什么选百家号,因为你获取不同文章的链接之后,百家号文章页面的网页结构都是一样的。通过Chrome浏览器F12可以轻松定位到文章链接。但是还要考虑翻页原创 2020-12-15 13:56:33 · 4575 阅读 · 5 评论 -
【办公自动化】python办公自动化,简单处理excel(1)
python办公自动化需求:根据以下条件,输出供求关系级别的结果,红框右两列为条件import pandas as pddata = pd.read_excel('D:/xxx.xlsx') #数据源文件名,读取数据level=[]heat=[]num=[]for row in data.itertuples(): heat.append(getattr(row, '搜索热度')) num.append(getattr(row, '搜索结果数'))for t in rang原创 2020-10-30 17:33:59 · 168 阅读 · 0 评论 -
Lending Club申请评分卡模型开发(Python)
Lending Club申请评分卡模型开发(Python)一、文章解析文章重点分为下列几个阶段目标变量定义(好坏定义,以及灰色客户的定义) 样本概述和说明 部分数据字典 缺失值处理 筛选变量(基于IV值和皮尔森相关系数的多重共线性检测) 变量分箱(基于k-Means聚类算法的变量离散化) 模型训练 模型评估二、评分卡开发目的评分卡开发流程三、数据准备数据下载地址:https://www.lendingclub.com/info/download-data.act转载 2020-08-20 14:50:01 · 1923 阅读 · 2 评论