- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 python-增值税发票识别
调用百度的OCR接口,对指定目录下的所有发票(jpg、png、pdf)进行识别,最后将识别结果保存至excel中。是发票存放的目录,这两个填好后直接运行程序就可,最后生成以。为发票识别api的token,
2023-04-16 17:32:51
1715
原创 Python 爬取财务报表
在本文中,我们将介绍如何使用Python编写一个简单的数据抓取器,用于爬取东方财富网上的各类财务报表数据。我们将利用requests和lxml库进行数据请求和解析,并将抓取到的数据保存到CSV文件中。
2023-04-13 20:31:57
8786
4
原创 Python--从PDF中提取文本的方法总结
使用pdfplumber、pdfminer、fitz/pymupdf 三个库实现从PDF中提取文本,对比分析三个库的提取效率
2023-02-24 15:34:27
18205
3
原创 异步爬虫模板--aiohttp
功能:将接口爬取的数据转换成DataFrame格式后直接存入mysql数据库中。需要搭配ip代理池使用,当然如果不考虑反爬也可以不挂ip。
2022-08-17 17:35:53
361
原创 Jenkins安装--踩坑记录
第一次安装应该大多数人(比如我)会遇见这个问题,在网上查了半天,很多文章都说什么进入/root/.jenkins/updates目录修改default.json,将测试网络用的google改为baidu,实际上根本没有updates这个目录!下载好.hpi文件后,在jenkins的插件管理里面安装,重启jenkins后就可以下载安装其他插件了。大概率是网络问题,因为上一步配置成了http,所以在安装插件时会有安全验证不通过的情况。第一个坑过去了之后,紧接着来到第二个坑——插件安装失败。...
2022-08-15 11:34:06
1261
5
原创 两种方法实现使用ip代理接口获取随机ip
本文使用的是某ip代理网站的动态共享代理,从接口批量获取ip代理并从中随机获取ip两种思路从接口获取随机ip,使用时需进一步考虑错误处理和并发量的问题,自己调整请求接口的频率https。
2022-07-26 11:18:03
1005
原创 某度文库付费文档下载,实测可用~
话不多说直接上干货,只需要准备好浏览器,各大主流浏览器都可如遇脚本失效,可自行去脚本市场安装其他脚本使用,过程和上述类似httpshttpshttpshttpshttps。
2022-07-23 14:13:34
4787
原创 pandas操作excel导入MySQL数据库
使用Pandas读取Excel中数据,根据Excel名称在MySQL中创造指定结构的数据表,最后将数据插入到对应数据表中
2022-07-11 15:55:32
1788
《The Kiter Runer》.pptx 全英文PPT,无讲稿,内容丰富,图片清晰,适合作为课程作业提交
2022-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人