自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Python办公自动化(未完,待续)

目录5PDF自动化5.4pypdf2工具5.4.1工具使用说明5.4.2PDF旋转5.4.3PDF合并5.4.4PDF拆分5.4.5提取文本5PDF自动化操作PDF的几种常用工具:pdfminer:提取文本;解析PDF是一件耗时和耗内存的工作,PDFMiner库使用了lazy parsing的策略,也就是只在需要的时候才去解析(减少时间和内存的使用) 参考链接:http://euske.github.io/pdfminer/pr...

2021-01-17 23:14:54 735 7

原创 Python爬虫工具

目录1. BeautifulSoup1.1 特点1.2 使用步骤1.3 解析器1.4 教程1.5 Project:安居客房价抓取(BeautifulSoup)如何获取Header信息2. Selenium2.1 Project:安居客房价抓取(Selenium)2.2 Project:自动登录开课吧学习中心(Selenium)BeautifulSoup:Python Html 解析库,BeautifulSoup 将复杂 HTML 文档转换成一个复杂的树形结构.

2021-01-03 12:55:02 6329

原创 新闻自动化处理

新闻自动化处理假设场景:给你一个URL(about新闻),希望你完成以下几个步骤新闻页面抓取:by beautifulsoup 人物、地点识别:中文切词jieba库,英文切词NLTK库 文本清洗(一个页面包含很多无效信息):by 正则化表达式 关键词、关键句(摘要)提取:by textrank 词云可视化:by WordCloud以上是本次项目中涉及的任务 & 技术import requestsfrom bs4 import BeautifulSoupimport jie

2021-01-03 12:50:46 691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除