- 博客(7)
- 资源 (8)
- 收藏
- 关注
原创 图片验证码解决方法
使用PIL标注图片库# python图片标准库from PIL import Imageimport pytesseract# 创建图片对象image = Image.open("test3.jpg")# 图片转为字符串s = pytesseract.image_to_string(image)print(s)解决验证码问题基本思路与方法# -*- coding...
2019-05-27 18:37:54 672
原创 爬取京东商品(js)
from selenium import webdriverimport csvimport time# 1. 接收要搜索的商品类型,打开商品搜索页面pro = input("请输入商品名称:")driver = webdriver.Chrome()driver.get("https://www.jd.com/")# 发送文字到搜索框,点击搜索按钮driver.find_el...
2019-05-27 18:31:54 630
原创 登录豆瓣网站Chrome-无界面模式
# -*- coding: utf-8 -*-"""Created on Wed Nov 28 15:58:18 2018@author: python"""# -*- coding: utf-8 -*-"""Created on Wed Nov 28 14:49:18 2018@author: python"""# 导入模块from selenium import ...
2019-05-27 18:26:38 346
原创 爬虫学习笔记day08
3.scrapy模块方法 yield scrapy.Request(url,callback=解析方法名)==================================================Day08笔记1.如何同时开启多个项目管道文件 在piplines.py中所有管道classzhong ,设置函数 porcess_item(self,item.spide...
2019-05-19 16:32:59 237
原创 爬虫学习笔记day07
Day回顾1. 多线程爬虫 1. 多进程:大量密集并计算 2.多线程:I/O密集操作(网络I/O,本地磁盘I/0)2. 多线程爬虫 1. url 队列: put(url) 2. RES 队列: 从URL队列中get()发动请求,put(html) 3. 创建多个解析队列,发请求,获取html源码 4. 创建多个解析线程,解析html2. Bea...
2019-05-19 16:29:28 199
原创 爬虫学习笔记day06
Day05回顾1、json模块 1、json.loads() json格式(对象、数组) -> Python格式(字典、列表) 2、json.dumps() Python格式(字典、列表、元组) -> json格式(对象、数组)2、Ajax动态加载 1、F12 -> Query String Data 2、params={QueryString...
2019-05-19 16:28:11 276
原创 爬虫学习笔记day05
1.json模块 1. javascript 中的对象和数组 对象:{'key':'value'} 数组:[x1,x2,x3] 2. 作用 json格式字符串 和 python数据类型之间的转换 3. 常用的一些方法 1. json.loads(): json格式--> Python数据类型 ...
2019-05-15 10:49:08 232
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人