爬虫
云中鲸
这个作者很懒,什么都没留下…
展开
-
【Python】Selenium一直使用同一个浏览器,不重复开浏览器
在实际调试selenium自动化程序时,我们需要手动打开浏览器,进入到所需的页面,执行一些手动任务,如输入表单、输入验证码,登陆成功后,然后再开始运行自动化脚本。这种情况下如何使用selenium来接管先前已打开的浏览器呢?这里给出Google Chrome浏览器的解决方案。我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。打开cmd,在命令行中输入命令:chrome.exe --remote-debugging-port=9222 --user-data-d原创 2021-05-19 09:43:47 · 8315 阅读 · 0 评论 -
【python】多线程来提升scrapy的速度
scrapy在单机跑大量数据的时候,在对settings文件不进行设置的时候,scrapy的爬取速度很慢,再加上多个页面层级解析,往往导致上万的数据可能爬取要半个小时之久,这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升,不过前提你要注意到你爬取的目标网站有没有反IP的可能。settings文件设置以下参数:DOWNLOAD_DELAY = 0CONCURRENT_REQUESTS = 100CONCURRENT_REQUESTS_PER_DOMAIN = 100C原创 2020-09-27 14:25:51 · 3728 阅读 · 2 评论 -
Python爬虫网站模拟登陆
一、获取一个有登录信息的Cookie模拟登陆下面以人人网为例,首先使用自己的账号和密码在浏览器登录,然后通过抓包拿到cookie,再将cookie放到请求之中发送请求即可,具体代码如下:运行程序后就可以得到登录后页面的截图了,也可以使用driver.page_source拿到页面源码。# -*- coding: utf-8 -*-import urllib2# 构建一个已经登录过的用户...转载 2018-12-19 17:04:54 · 2726 阅读 · 0 评论 -
【爬虫】身份证前6位区域划分编码爬取
因为之前项目中是到网站去请求身份证号的归属地信息,网站并不稳定,打算改变一下,准备用在本地做一个码表,信息来源就是:2018年中华人民共和国行政区划代码,上面每个月都会变更信息我要找的就是11月份的代码划分。关于身份证号的位数含义,及校验方法,这里面写的特别详细:中国公民身份证号码验证标准、方案与实现#-*- coding:utf-8 _*-"""@file : idcard_dict....原创 2020-04-27 17:08:27 · 3071 阅读 · 0 评论 -
python爬取自如房子信息,价格是个坑
爬取自如房子的信息 前一阵换房子,找房子真的是太麻烦了,自如自动筛选的功能没有自己手动筛选符合心意,所以打算都爬下来,自己看。一、发现问题 在爬取的过程中,相信大家都遇到一个坑,就是那个价格的问题,每次随机加载出来一个不规则命名的图片,图片上的数字都是乱序,前端从这张图片根据像素截取出来数字,来展示价格。 这次的图片如下图:http://static8.ziroom.com/...原创 2018-09-29 14:34:40 · 4795 阅读 · 12 评论 -
【python】 利用phantomJS爬取腾讯动漫
利用phantomJS爬取漫画起名是随机字符串的腾讯动漫from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesimport timeimport sysimport urllibimport rereload(sys)...原创 2018-08-19 20:23:38 · 1085 阅读 · 0 评论 -
【爬虫】HTTP代理神器Fiddler
HTTP代理神器FiddlerFiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888Fiddler抓取HTTPS设置启动Fi...转载 2018-05-23 16:47:56 · 665 阅读 · 0 评论 -
【爬虫】使用urllib2的header部分伪造报头来实现采集信息
在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行使用urllib2的header部分伪造报头来实现采集信息方法1:创建字典添加请求头内容#!/usr/bin/python# -*- coding: utf-8 -*-#encoding=utf-8#Filename:urllib2-header.pyimport urllib2import sys#抓取网页...原创 2018-04-28 15:30:10 · 553 阅读 · 0 评论 -
HTTP协议详解
HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要用于W...转载 2018-05-17 19:54:19 · 377 阅读 · 0 评论 -
爬虫框架Scrapy入门(一)
一、环境搭建Linux用户Windows用户Anaconda二、第一个Scrapy项目1、创建项目2、Scrapy架构图3、设置settings.py的配置(按需)4、在items.py定义字段5、在spiders中编写爬虫① 创建一个spider② 解析页面的url③ 导入需要的包④ url请求代码④ 测试执行⑤ 爬取下一页⑥ 获取小说的名字和url⑦...原创 2018-05-17 19:15:18 · 362 阅读 · 0 评论 -
Scrapy架构图
项目创建完了,也知道了大致功能,接下来看看整体架构和怎样运行的:组件Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler) 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。下载器(Downloader) 下载器负责获...原创 2018-05-17 13:21:23 · 1621 阅读 · 0 评论 -
【Python】HTTP Status 400 - Required String parameter 'params' is not present
今天在做爬虫,对某金融网站的标的进行爬取,用fiddler进行抓包分析的时候,拦截到的网址是:https://www.XXX.com/api/2.0/W/getProjectList页面内容如下:然后再浏览器中进行访问,出现如下结果说:必需的字符串参数'params'不存在这什么鬼?fiddler也没拦截到参数啊,然后我开始看js,都是压缩后的,眼花缭乱。后来感...原创 2018-05-09 18:29:41 · 4621 阅读 · 0 评论