爬虫
文章平均质量分 51
如是我聞……
这个作者很懒,什么都没留下…
展开
-
pdfplumber批量提取PDF重点内容并保存到csv数据表
同一个文件夹中保存了1000多份PDF文档,需要从每份PDF文档中提取关键的信息,将每一条信息存入csv表格作为一个单元格内容,同一份PDF文档中的多条信息生成一行数据,保存为固定格式的1000多行数据表。解决思路:1、利用pdfplumber模块来实现对PDF文件中的文字和表格进行提取,将提取出来的内容写入一份csv表格中,每一份PDF文件生成一行数据。2、PDF文件中的文字使用正值表达式进行筛选。3、PDF文件中的表格直接提取表格内容,再分列填充为csv表格的新列。4、设置好csv表格的表头信原创 2021-03-23 22:08:11 · 2658 阅读 · 3 评论 -
Python自动创建csv表格并逐行写入数据、自动并存
网页爬取到的数据,或经过批量转换、清洗后的数据,需要写入并保存为csv格式的文件。如果生成大量的、全部的数据后才一次性写入和保存,程序运行过程一遇到中断或中间报错,已处理过的数据尚未保存到csv文件中,只能从新开始,浪费时间。采用一开始生成一个空的csv文件,再逐条数据,逐行写入的方式,即使中间报错中断,已处理的数据也已保存下来了,避免重头再次处理数据。思路:一开始先创建一个空的csv文件,表头信息同时写入。如果csv文件已存在,覆盖原文件。import osimport numpy as np原创 2021-03-13 21:40:33 · 11228 阅读 · 2 评论 -
selenium+IE爬取行政处罚信息公示表
爬取某官网的行政处罚信息公示表,先从官网的某省市分站进行数据抓取,每个网页包括10条数据,共31页310份文书,批量下载到行政处罚文书文档,为后期使用python代码合并和数据筛选提供基础的数据信息。目标网页,每页10条信息:详情网页,每页只有一条信息(信息公示表),点击该点信息可以下载保存。首先分析首页链接地址和第二页,第三页及下一页的链接地址,发现首页链接地址差异较大,从第二页开始,地址index后面多了页数编号,index前面多了20713/,找出了规律就好办了。pageurl0='htt原创 2021-02-17 14:52:47 · 751 阅读 · 0 评论