python爬虫
Xs-1
这个作者很懒,什么都没留下…
展开
-
scrapy抓取苏宁所有图书并保存到数据库
scrapy抓取苏宁所有图书 采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格) 注意 需要根据苏宁图书网页分类建立相应分类 图书详情页每页有60条图书数据,但response.body中只有30条,需要构造url发起请求获取 实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同,需要单独构造url发起请求 需将setting中robots协议改为false 价格抓取图书详情页构造url进行抓取 在for循环内yield原创 2020-07-15 10:52:37 · 245 阅读 · 0 评论 -
Mac 下selenium 配置chrome插件
Mac 下selenium 配置chrome插件 -Chromedriver安装,将其移动到usr/bin或usr/local/bin目录下 -selenium包安装 from selenium import webdriver option = webdriver.ChromeOptions() # 加载所有插件 option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C原创 2020-07-08 08:48:35 · 562 阅读 · 0 评论 -
协程池gevent实现糗事百科爬取
标题 -协程池gevent实现糗事百科爬取 import gevent.monkey gevent.monkey.patch_all() from gevent.pool import Pool import requests from lxml import etree from queue import Queue from pprint import pprint import time class Qiubai: def __init__(self): self.temp原创 2020-07-06 22:38:58 · 187 阅读 · 0 评论 -
线程池实现糗事百科爬取
线程池实现糗事百科爬取 import requests from lxml import etree from queue import Queue from pprint import pprint from multiprocessing.dummy import Pool import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}原创 2020-07-06 22:09:25 · 137 阅读 · 1 评论 -
多进程爬取糗事百科JoinableQueue使用
多进程爬取糗事百科 使用multiprocess模块 import requests from lxml import etree from multiprocessing import JoinableQueue as Queue from multiprocessing import Process import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike原创 2020-07-06 15:40:45 · 109 阅读 · 0 评论 -
Python多线程队列爬取糗事百科
Python多线程爬虫 使用线程队列queue xpath解析页面 import requests from lxml import etree from queue import Queue import threading import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers原创 2020-07-06 15:25:54 · 151 阅读 · 0 评论 -
Python糗事百科爬虫
糗事百科爬虫 -通过面向对象实现糗事百科页面爬取 使用xpath解析页面 import requests from lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma原创 2020-07-06 12:21:21 · 111 阅读 · 0 评论