Python
文章平均质量分 87
Li_JiaQian
这个作者很懒,什么都没留下…
展开
-
【Python】Python爬取小说标题及内容——晋江文学网
1.在晋江文学网(http://www.jjwxc.net/)上选定一篇不需要会员付费的小说(http://www.jjwxc.net/onebook.php?novelid=2443908);2.在目录页获取各章节名称以及各章内容的url;3.前往各章url获取文章内容,为了纯粹只获取内容,观察页面构局,使用正则表达式,筛选出需要的内容;4.开始爬取,并将内容写入txt文件中,屏幕更新下载进度。...原创 2018-05-11 18:39:01 · 10253 阅读 · 2 评论 -
【Python】Python下载动态页面图片
1.搭建Selenium环境:pip install selenium到D:\python3.6.5\Lib\site-packages下把selenium文件夹复制到D:\python3.6.5\Lib2.下载安装32位的chrome浏览器:https://www.chromedownloads.net/chrome32win-stable/759.html注意:需要使用32位的浏览器,如果本身...原创 2018-05-12 17:21:01 · 1545 阅读 · 0 评论 -
【Python】Python爬取复旦大学拟录取硕士名单公示——Adobe Flash Player的内容
1.手动获取:下载fiddler抓包工具:https://www.telerik.com/fiddler安装好后打开fiddler,进入网页:http://www.gsao.fudan.edu.cn/2b/22/c1659a142114/page.htmfiddler获取到一系列http请求,选择result为200的逐个点入查看request headers:将src=后的内容添加到www.gs...原创 2018-05-13 11:30:06 · 1640 阅读 · 0 评论 -
【Python】Python合并(指定目录)+切分PDF文件
1.使用PyPDF2:from PyPDF2.pdf import PdfFileReader,PdfFileWriter将文件夹中的pdf.py复制粘贴到D:\python3.6.5\Lib中:使用pyPdf会报错如下:2.利用上篇文章下载到的两篇pdf合并,会报错:Traceback (most recent call last): File “D:\python3.6.5\lib\PyPD...原创 2018-05-13 14:22:27 · 2055 阅读 · 1 评论 -
【Python】输出pdf的内容(写入EXCEL)
1.将pdf文件内容写入txt文件:利用PDFminer3k模块来抽取PDF内容,包括文本、图像、曲线等:https://blog.csdn.net/zyc121561/article/details/77877912# -*- coding: utf-8 -*-import sysimport importlibimportlib.reload(sys)from pdfminer.pd...原创 2018-05-14 17:04:12 · 4087 阅读 · 0 评论 -
【Python】Python文字识别
1.使用pytesseract和PIL库(1)安装pytesseract和PIL库:pycharm->settings->project interpreter(2)安装识别引擎tesseract-ocr:点击打开链接from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open(...原创 2018-06-05 18:01:28 · 2319 阅读 · 1 评论 -
【Python】Python利用百度AI进行文字识别
1.通用文字识别# -*- coding: UTF-8 -*-from aip import AipOcr# 定义常量APP_ID = '11352343'API_KEY = 'Nd5Z1NkGoLDvHwBnD2bFLpCE'SECRET_KEY = 'A9FsnnPj1Ys2Gof70SNgYo23hKOIK8Os'# 初始化AipFace对象aipOcr = AipOcr(...原创 2018-06-05 19:47:24 · 12151 阅读 · 4 评论 -
【Python】Python简单验证码识别
1.通过二值化处理去掉干扰线2.对黑白图片进行降噪,去掉那些单独的黑色像素点3.消除边框上附着的黑色像素点4.识别图像中的文字,去掉空格与’.’from PIL import Imagefrom aip import AipOcrfile='1-1-7'# 二值化处理,转化为黑白图片def two_value(): for i in range(1, 5): #...原创 2018-06-06 11:56:00 · 1001 阅读 · 0 评论 -
【Python】python、pycharm的安装
1.下载对应版本的python 安装时记得勾选“Add Python *.* to PATH",从而免去环境变量的配置 在cmd下测试是否安装成功:2.下载对应版本的pycharm 使用破解码破解(2019年5月到期)...原创 2018-10-10 19:44:25 · 243 阅读 · 0 评论