- 博客(3)
- 收藏
- 关注
原创 Python办公自动化(未完,待续)
目录5PDF自动化5.4pypdf2工具5.4.1工具使用说明5.4.2PDF旋转5.4.3PDF合并5.4.4PDF拆分5.4.5提取文本5PDF自动化操作PDF的几种常用工具:pdfminer:提取文本;解析PDF是一件耗时和耗内存的工作,PDFMiner库使用了lazy parsing的策略,也就是只在需要的时候才去解析(减少时间和内存的使用) 参考链接:http://euske.github.io/pdfminer/pr...
2021-01-17 23:14:54 735 7
原创 Python爬虫工具
目录1. BeautifulSoup1.1 特点1.2 使用步骤1.3 解析器1.4 教程1.5 Project:安居客房价抓取(BeautifulSoup)如何获取Header信息2. Selenium2.1 Project:安居客房价抓取(Selenium)2.2 Project:自动登录开课吧学习中心(Selenium)BeautifulSoup:Python Html 解析库,BeautifulSoup 将复杂 HTML 文档转换成一个复杂的树形结构.
2021-01-03 12:55:02 6329
原创 新闻自动化处理
新闻自动化处理假设场景:给你一个URL(about新闻),希望你完成以下几个步骤新闻页面抓取:by beautifulsoup 人物、地点识别:中文切词jieba库,英文切词NLTK库 文本清洗(一个页面包含很多无效信息):by 正则化表达式 关键词、关键句(摘要)提取:by textrank 词云可视化:by WordCloud以上是本次项目中涉及的任务 & 技术import requestsfrom bs4 import BeautifulSoupimport jie
2021-01-03 12:50:46 691
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人