爬虫
海上升明月513
嗯,介绍
展开
-
xpath语法
选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:表达式nodename 选取此节点的所有子节点。/ 从根节点选取。// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。. 选取当前节点。.. 选取当前节点的父节点。@ 选取属性。在下面,列出了一些路径表达式:路径表达式book...转载 2018-10-28 16:05:48 · 238 阅读 · 0 评论 -
利用scrapy-splash爬取JS生成的动态页面
目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。利用webkit或者基于webkit库Splash是一个Javascript渲染服务。它是一个实现了HT...转载 2018-10-26 22:14:31 · 125 阅读 · 0 评论 -
scrapy汽车之家车型的简单爬取
spider# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom mininova.items import carItemimport sysreload(sys)sys.setdefaultencoding('utf8')class SplashSpider(scrapy.Spider): ...原创 2018-10-28 01:16:28 · 1267 阅读 · 0 评论 -
scrapy好看小说爬取源代码
spider# -*- coding: utf-8 -*-import scrapyfrom scrapy_splash import SplashRequest #重新定义了请求from mininova.items import SplashItemfrom scrapy import Requestimport sysreload(sys)sys.setdefaultenco...原创 2018-10-28 01:25:22 · 412 阅读 · 0 评论 -
selenium+chrome headless完成自动百度八斗平台的录入问题(python版本为2.7)
# -*- coding: utf-8 -*- import sysreload(sys)sys.setdefaultencoding('utf-8')import osfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.chrom...原创 2018-11-26 11:40:03 · 1706 阅读 · 1 评论 -
图片二维码的识别python版
# -*- coding: utf-8 -*- import sys# reload(sys)# sys.setdefaultencoding('utf-8')# from pytesseract import *from PIL import Imagefrom fnmatch import fnmatch# from queue import Queueimport Qu...转载 2018-11-26 11:41:32 · 960 阅读 · 0 评论 -
selenium+chrome headless访问百度
# -*- coding: utf-8 -*- import sysreload(sys)sys.setdefaultencoding('utf-8')import osfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.chrom...转载 2018-11-26 11:42:38 · 237 阅读 · 0 评论 -
数据获取之爬虫_1
scrapy结构介绍1.spider抓取页面并获取对应的dom信息,将返回的信息,交给指定的pipeline进行处理2.item定义spider抓取的内容,非必须项3.pipeline处理抓取返回的信息,例如加入数据库获取存入文件中。spider的介绍spider的名字必须唯一,但是使用的类名就无所谓了例如ip_spider的一些定义'''class BiqugeSpider...原创 2019-01-07 18:44:39 · 221 阅读 · 0 评论 -
scrapy缺少win32api
pip install pypiwin32原创 2019-06-08 10:46:41 · 180 阅读 · 0 评论