自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

abylee的博客

数据分析新手上路

  • 博客(10)
  • 收藏
  • 关注

原创 【办公自动化】python自动化生成sql语句一

我的笔记本不能直连生产,需要读取excel中的数据,转为insert语句写入数据库。前4个字段需要以字符串格式写入。

2023-05-09 14:15:06 359

原创 【python爬虫】爬取深圳证券业协会公布的营业部数据并对pdf文件进行解析

假装目录有用背景抓包导入第三方库爬虫代码pdf解析完整代码背景深圳证券业协会网站公布了辖区内所有证券营业部的股基交易量、净利润、营收数据,免登录就能查看,我们需要获取这部分数据,由于都是pdf文件,所以首先得爬虫获取pdf文件到本地然后对pdf文件进行解析和数据处理。网页链接抓包抓包的实例我之前的文章介绍了很多次了。这回我直接把找到需要的参数展示一下:data = {'typeid':18,'pagesize':40,'pageno':1}导入第三方库import pandas as p

2022-03-01 11:32:56 1324

原创 【办公自动化】用pdfplumber读取年报pdf中的表格

用pdfplumber读取年报pdf中的表格思路完整代码效果pdfplumber使用总结思路年报里的表格是长这样的:首先循环读取指定文件夹中的年报pdf,然后用pdfplumber进行解析,再根据需要的关键词定位页码,进一步导出表格内容,将表格转化为list按行写入空列表。最后将二维列表转化为dataframe。完整代码import pandas as pdimport pdfplumberimport os#获取pdf文件名def file_name(file_dir): f

2021-06-08 09:46:41 1607 2

原创 【python爬虫】一个简单的爬取百家号文章的小爬虫

需求用“老龄智能”在百度百家号中搜索文章,爬取文章内容和相关信息。观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道。首先看了一下robots.txt,基本上对爬虫没有什么限制。然后就去定位网页元素,我的思路是先把上图搜索页的每篇文章的链接爬取下来,然后放在list里循环访问获取内容,这里再提一下为什么选百家号,因为你获取不同文章的链接之后,百家号文章页面的网页结构都是一样的。通过Chrome浏览器F12可以轻松定位到文章链接。但是还要考虑翻页

2020-12-15 13:56:33 4292 5

原创 【办公自动化】python办公自动化,简单处理excel(1)

python办公自动化需求:根据以下条件,输出供求关系级别的结果,红框右两列为条件import pandas as pddata = pd.read_excel('D:/xxx.xlsx') #数据源文件名,读取数据level=[]heat=[]num=[]for row in data.itertuples(): heat.append(getattr(row, '搜索热度')) num.append(getattr(row, '搜索结果数'))for t in rang

2020-10-30 17:33:59 151

转载 Lending Club申请评分卡模型开发(Python)

Lending Club申请评分卡模型开发(Python)一、文章解析文章重点分为下列几个阶段目标变量定义(好坏定义,以及灰色客户的定义) 样本概述和说明 部分数据字典 缺失值处理 筛选变量(基于IV值和皮尔森相关系数的多重共线性检测) 变量分箱(基于k-Means聚类算法的变量离散化) 模型训练 模型评估二、评分卡开发目的评分卡开发流程三、数据准备数据下载地址:https://www.lendingclub.com/info/download-data.act

2020-08-20 14:50:01 1853 2

原创 美团2020助理产品经理实习面经

笔试没什么特别的就是行测的东西,没有数量和常识。笔试时间大概1个小时。一面一面是基本了解,自我介绍然后挑了一些实习经历和项目经历聊了一下,面试官用了很多时间介绍岗位信息和工作内容,感觉还挺负责的。这里值得注意的是,一面问了择业倾向,就是你找工作有没有行业或者岗位倾向。二面二面也没有问什么业务,可能因为我没有产品实习经历。但是问了从之前的实习收获了什么,最大的挑战是什么,是否达到自己的预期...

2020-03-31 21:08:39 1804

原创 快手电商产品经理实习岗位一轮笔试

周末参加了快手电商产品经理暑期实习的在线测评,没有做太多准备,甚至平时快手的产品用的都不是特别多。把记得的题目分享一下:总体情况一共四道题,两道选择,两道问答,选择题比较简单,第一道题考了电商常用术语的英文缩写比如UCG用户生成内容,用户平均注册数等。第二道选择题考的是马斯洛需求理论的五层结构分别是什么,生理需求-安全需求-社会需求-尊重需要-自我超越。问答题问了种树、养宠物类的产品如天猫...

2020-03-24 19:59:39 1495

原创 【问题记录】python爬虫写入excel问题

最近开始使用openpyxl将爬虫获取的内容写入excel。今天遇到了一个很蠢的问题。就是append的时候报错:can not convert [‘xxxx’] to excel其实就是openpyxl里面用append()方法按行写入,写入的数据要求是字符串格式,但是显而易见,报错的部分是个列表。所以加上个str()就解决了。这里要注意,获取到的列表在这里用的是lxml库中的etree解析...

2019-07-01 09:02:42 1755

原创 【问题记录】re字符串操作报错:'_sre.SRE_Match' object has no attribute 'split'

在写爬虫的时候,使用了re.search获取信息,报错:’_sre.SRE_Match’ object has no attribute ‘split’原代码:页面中的信息大概是:东城区(144),需求是东城区和144分开输出 for span in page_content.find_all('h3',class_='u-title-3'): #定位直辖市的区县名 distric...

2019-06-30 09:57:20 3845

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除