爬虫
走在下雨天的人
这个作者很懒,什么都没留下…
展开
-
公司可能会用到的内容抓取系统爬虫服务
设计框架结构对于大型的爬虫系统,保障系统的平稳运行和效率是十分重要的,通常公司会采用微服务架构进行拆分,对每一块业务封装单独的服务,下面根据公司可能使用的业务框架进行分析BrowserServer:该服务主要作为获取网页html的手段;CrawlerSpider:作为爬虫启动入口,设置定时任务启动执行,检查网站是否有更新,根据需要设置不同的媒体内容,如图片,视频,文字内容等创建不同的任务;CrawlerEngine:消费爬虫任务,对本次任务设定唯一的id作为标识符,会根据不同的任务内容如视频,原创 2022-04-16 22:14:53 · 588 阅读 · 0 评论 -
js逆向分析-有道翻译
js加密一直是困扰数据抓取的难题,但总有办法,总结下经验一起学习有道翻译接口初探url地址:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule通过分析请求头可以看到使用的post请求请求是通过异步往服务器发送数据主要有以下参数,一群看不懂的东西不用说肯定是加密信息i: dogfrom: AUTOto: AUTOsmartresult: dictclient: fanyideskwebsal原创 2021-02-24 21:21:46 · 239 阅读 · 0 评论 -
Python+selenium获取BOSS招聘信息最新
久了没有动,感觉挺难受的,听过各大网站都加强了反爬措施,今天来试试BOSS直接selenium搞起,这不还真遇到了问题一经查看原来是增加了selenium检测啊还难不倒我,配置浏览器设置参数即可解决直接上代码# -*- coding:utf-8 -*-'''BOSS招聘爬取'''from selenium import webdriverimport csvimport ...原创 2020-03-29 11:35:03 · 414 阅读 · 3 评论 -
Python进阶爬虫滑动验证码最新解决
今天给大家带来的是滑动验证码的selenium破解之法,参考网络资源最后总结而来,废话不多直入主题。解析过程首先获取目标网站的验证码图片,没有缺口和有缺口的图片对比两张图片的所有RBG像素点,得到不一样像素点的x值,即要移动的距离distance模拟人的行为习惯(先匀加速拖动后匀减速拖动),把拖动的总距离分成一段一段小的轨迹按照轨迹拖动,完成验证案例过程这里我使用的是博客园验证码...原创 2019-10-13 16:20:36 · 430 阅读 · 0 评论 -
Python验证码识别图像二值化去除噪点(tesseract识别数字字母)
一、Python爬虫验证码识别1、开发环境tesseractPython3 :PIL pytesseract关于环境搭建网上教程很多,环境变量配置好后,终端输入tesseract -v这就代表环境搭建成功tesseract 123.jpg result -l engresult 表示输出文档名-l 表示选择的语言2、原始数据数据3、识别大概步骤图像二值化去除图...原创 2019-10-04 16:59:33 · 6077 阅读 · 2 评论 -
pyspider框架使用实例
PySpider框架 ,个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。self.crawl(url, **kwargs)self.crawl是告诉pyspider应该抓取哪个url的主界面。url要抓取的网址或网址列表。callback解析响应的方法。default:_ call _ _一个项目有...原创 2019-08-31 20:21:09 · 376 阅读 · 0 评论 -
Python爬虫网络requests库详解各种使用方法
实例import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式...原创 2019-08-25 10:54:39 · 277 阅读 · 1 评论 -
Python网络urlllib库详解常用的使用操作最全
py2和py3使用区别最简单的请求方式urlopenurllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)import urllib.requestresponse = urllib.request.urlopen('ht...原创 2019-08-25 10:23:59 · 1947 阅读 · 0 评论 -
一文看懂什么是网络爬虫
1、什么是爬虫?请求网站并提取数据的自动化程序2、爬虫基本流程发起请求: 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。 获取响应内容: 获取响应内容如果服务器能正常响应,会得到一个Response,esponse的内容便是所要获取...原创 2019-08-24 17:41:02 · 231 阅读 · 0 评论 -
scrapy通用随机下载延迟、IP代理、UA
目录结构main.py文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute('scrapy crawl test'.split())settings.py文件# -*- coding: utf-8 -*-BOT_NAME = 'mytest'SPIDER_MODULES = ['myt...原创 2018-11-25 15:41:29 · 4057 阅读 · 0 评论 -
爬虫分模块写法
这里主要分成五个模块调度器url管理器下载器解析器数据处理import requestsfrom fake_useragent import UserAgentfrom lxml import etree# url管理class UrlManager(object): def __init__(self): self.new_url = [] ...原创 2018-11-13 15:39:55 · 249 阅读 · 0 评论 -
scrapy中间件源码提升爬虫质量
Request源码cookies 接受一个字典"""This module implements the Request class which is used to represent HTTPrequests in Scrapy.See documentation in docs/topics/request-response.rst"""import sixfrom w3l..原创 2018-11-06 14:33:16 · 625 阅读 · 0 评论 -
使用selenium进行多窗口处理demo
使用selenium需要启动浏览器,当然必要的环境肯定要支持啦,做爬虫效率也没有框架来的快,但是我喜欢啊(调皮)这是一个可以进行多窗口抓取的demo,可以根据自己的需求进行更改from selenium import webdriverfrom selenium.webdriver.common.by import By# WebDriverWait 库,负责循环等待from sele...原创 2018-11-01 16:39:48 · 1391 阅读 · 0 评论 -
selenium经常使用的一些小技巧
selenium十分强大,可以解决我们爬虫时遇到的许多问题,比如js,ajax等,废话不多,直接上代码。使用selenium,我们可以通过代理访问网站from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_argument('--proxy-server=https://47.104.2...原创 2018-11-01 16:29:16 · 490 阅读 · 0 评论 -
常用浏览器User-Agent列表
常用浏览器User-Agent大全agent = [ 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;AvantBrowser)', 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE)', 'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;...原创 2018-10-19 16:16:21 · 7498 阅读 · 0 评论 -
scrapy笔记
parse()方法的工作机制:因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果,并判断该结果是一个什么样的类型;如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。scrapy取到第一部分的request不会立马就去发送这个request,只是把这个re...原创 2018-10-16 14:58:44 · 173 阅读 · 0 评论 -
selenium不加载图片+下拉滚动条
配置浏览器吧加载图片from selenium import webdriveropt = webdriver.ChromeOptions()prefs = {'profile.managed_default_content_settings.images':2}opt.add_experimental_option('prefs',prefs)browser = webdriver...原创 2018-10-03 17:08:09 · 510 阅读 · 0 评论