Python 爬虫,scrapy,发送POST请求,发送表单提交POST请求 (登录),scrapy.FormRequest

  发送POST请求第一种方式:scrapy.Request(method="POST") 项目名/spiders/爬虫名.py(爬虫,发送POST请求): # -*- coding: utf-8 -*- import scrapy class Gi...

2019-01-19 20:14:42

阅读数:1

评论数:0

Python 爬虫,scrapy,携带cookie请求登录

  项目名/spiders/爬虫名.py(爬虫,携带cookie登录): # -*- coding: utf-8 -*- import scrapy import re class RenrenSpider(scrapy.Spider): name = '爬虫名' all...

2019-01-19 19:13:02

阅读数:16

评论数:0

Python 爬虫,scrapy,Downloader Middleware,下载中间件

下载中间件可以在发送请求前对request对象进行处理(添加请求头,代理IP等);也可以在返回响应前对response、request对象进行处理等。   项目名/middlewares.py(定义下载中间件): # -*- coding: utf-8 -*- import random ...

2019-01-19 18:13:22

阅读数:1

评论数:0

Python 爬虫,scrapy,CrawlSpider,自动提取url并发送请求

CrawlSpider 爬虫可以自动匹配提取url地址并发送请求,请求前会自动将url地址补全成以http开头的完整url。   创建CrawlSpider爬虫的命令:先cd到项目目录中 ----> scrapy genspider –t crawl 爬虫名 baidu....

2019-01-19 15:09:25

阅读数:18

评论数:0

Python 爬虫,scrapy,pipeline管道,open_spider(),close_spider()

  项目名/pipelines.py(管道,open_spider(),close_spider()): # -*- coding: utf-8 -*- class DemoPipeline(object): # 开启爬虫时执行,只执行一次 def open_s...

2019-01-18 20:02:54

阅读数:15

评论数:0

Python 爬虫,scrapy,settings配置文件

  项目名/settings.py(配置文件): # -*- coding: utf-8 -*- BOT_NAME = '项目名' # 项目名 SPIDER_MODULES = ['项目名.spiders'] # 爬虫模块的位置 NEWSPIDER_MODULE = '项目名.sp...

2019-01-18 19:46:01

阅读数:43

评论数:0

Python 爬虫,scrapy,scrapy shell 交互式终端

  在python命令终端中输入命令: scrapy shell http://www.baidu.com   进入scrapy的交互式命令环境。 scrapy的交互式命令终端中可以调试指定url请求的response等信息,也可以测试XPath表达式等。 可以调试如下信息等: respo...

2019-01-18 18:03:55

阅读数:7

评论数:0

Python 爬虫,scrapy,定义Item,封装提取的数据项

  项目名/items.py(定义Item): # -*- coding: utf-8 -*- import scrapy # 定义Item,继承scrapy.Item。 scrapy.Item 类似字典类型,可以通过[]获取和设置值,但不可以动态添加未定义的属性字段。 class Ten...

2019-01-18 16:42:55

阅读数:22

评论数:0

Python 爬虫,scrapy,提取url地址,并发送下一个url请求,scrapy.Request对象

  项目名/spiders/爬虫名.py(爬虫,xpath等提取数据和url,发送下一个url请求): # -*- coding: utf-8 -*- import scrapy from tencent.items import TencentItem class HrSpider(sc...

2019-01-18 16:16:22

阅读数:29

评论数:0

Python 爬虫,scrapy,日志配置

  项目名/spiders/爬虫名.py(爬虫,实例化logger,输出日志信息): # -*- coding: utf-8 -*- import scrapy import logging # 导入 # 实例化logger logger = logging.getLogger(__na...

2019-01-18 15:17:05

阅读数:14

评论数:0

Python 爬虫,scrapy,scrapy入门

安装scrapy框架: pip3 install scrapy 爬虫流程:  创建scrapy爬虫项目的步骤: 1. 创建一个scrapy项目: scrapy startproject 项目名   # 在Python命令行终端中执行 2. 生成一个爬虫:先cd到项目目录中 ----...

2019-01-18 11:37:05

阅读数:32

评论数:0

Python MongoDB数据库,pymongo模块

MongoDB学习笔记文档:https://pan.baidu.com/s/1D4PYjdWB4u0rMtksUy0-2w  密码:0rkh 安装pymongo模块: pip3 install pymongo   demo.py(pymongo模块,操作MongoDB数据库): # co...

2019-01-17 16:41:08

阅读数:37

评论数:0

Python pytesseract模块,识别图片中的文字(验证码)

Tesseract 是一个将图像翻译成文字的OCR库(光学文字识别,Optical Character Recognition) 安装pytesseract模块:pip3 install pytesseract   demo.py(pytesseract,识别图片中的文字): # cod...

2019-01-16 15:01:22

阅读数:41

评论数:0

Python 爬虫,Selenium控制操作浏览器,PhantomJS无界面浏览器

安装 Selenium 模块: pip3 install selenium Selenium 可以控制操作浏览器,往input标签中输入内容,点击操作等。 PhantomJS 是一个无界面浏览器(可以进行截屏),可以执行JS脚本渲染页面。需要在电脑上安装。 Selenium应用场景:动态ht...

2019-01-15 21:59:29

阅读数:27

评论数:0

Python 爬虫,多线程爬虫,任务队列Queue

    demo.py(多线程爬虫): # coding=utf-8 import requests from lxml import etree import threading from queue import Queue class QiubaiSpdier: def...

2019-01-15 16:23:59

阅读数:20

评论数:0

Python 爬虫,lxml模块,XPath语法提取页面数据

XPath语法参考:https://blog.csdn.net/houyanhua1/article/details/86484770   demo.py(lxml模块,XPath语法提取页面数据): # coding=utf-8 from lxml import etree # 模拟h...

2019-01-15 10:09:21

阅读数:19

评论数:0

XPath XPath常见语法

  ---- 获取结点文本: /html/head/title/text() ---- 获取所有div标签下的所有文本 //div//text() ---- 获取结点属性: /html/body/a/@href ---- /表示从根结点开始; .表示当前结点; ..表示父结点 /ht...

2019-01-14 22:02:16

阅读数:15

评论数:0

Python json模块,json与字典类型相互转换。json.dumps,json.loads;json.dump,json.load

  demo.py(json.dumps,json.loads): # coding=utf-8 import json from pprint import pprint # 格式化打印 json_dict = {"name":&quo...

2019-01-14 14:06:49

阅读数:22

评论数:0

Python 爬虫,requests模块,retrying模块

  demo.py(retrying模块,多次重新尝试): # coding=utf-8 import requests # 需要pip安装requests模块 from retrying import retry # 需要pip安装retrying模块 headers={&...

2019-01-13 21:22:39

阅读数:20

评论数:0

Python 爬虫,requests模块,携带cookie信息

  demo.py(方式一:请求头携带cookie信息): # coding=utf-8 import requests headers = { "User-Agent": "Mozilla/5.0 (Macintosh; In...

2019-01-13 16:21:10

阅读数:54

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭