自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 将js模块 自动融合为一个js文件 工具: Browserify

https://www.jianshu.com/p/8d8b8752d8a0

2019-10-11 18:15:26

阅读数 1

评论数 0

原创 Docker centos7 安装 Nodejs

7.1 首先 获取centos7 镜像: docker search centos 7.2 选择版本(官方),拉取镜像 docker pull centos:7 7.3 进入到centos7 容器中(启动centos7) docker run -t -i centos:7 /bin...

2019-10-09 17:44:06

阅读数 4

评论数 0

转载 chromedriver(selenium)以手机模拟器方式打开wap页面

直接指定UserAgent 错误! # self.options.add_argument('user-agent="Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) 正确方式...

2019-09-23 11:51:13

阅读数 3

评论数 0

转载 Genymotion 各对应版本

安卓版本 代号 Genymotion-ARM-Translation GApps 8.0 – 8.1 Oreo奥利奥 ARM_Translation_Oreo.zip 7.0 – 7.1.2 Nougat牛轧糖 6.0 – 6.0.1 Marshmallow棉花糖 ARM_Translati...

2019-09-19 09:28:30

阅读数 9

评论数 0

原创 使用selenium 将js对象转换为json格式的方法

script = 'function a(){{var styleWidth="";var styleHeight="";var s={}; return JSON.stringify(s);}}return a();'.format(json_source...

2019-09-05 17:39:55

阅读数 12

评论数 0

原创 selenium 记录 performance日志

做爬虫的时候,有时候遇到需要的数据在加载资源当中,通常做法是拼接url,然后获取数据,但首先需要进行分析,如果拼接中的参数有加密的情况时,如果不能模拟算法生成正确的参数,那就很头疼。而访问performance,可以获得加载网站时的资源请求信息,可以通过这一特点,获取url和数据。 impor...

2019-09-05 09:10:02

阅读数 47

评论数 0

原创 YouTube 视频源地址解析

需求:通过一个页面链接返回页面中的视频下载地址。 from selenium import webdriver from urllib import parse import time import requests import re import json class YoutubeCr...

2019-08-29 16:36:39

阅读数 25

评论数 0

原创 chromedriver 允许flash运行

1: 原始(不成功) chromeOpitons = Options() prefs= { "profile.managed_default_content_settings.images":1, "profile.content_setti...

2019-08-16 09:40:41

阅读数 81

评论数 0

原创 对于页面加载完成状态的检测的理解

问题:在进行源码下载任务时经常遇到页面由于异步加载,导致页面加载不完全的问题 方法总结: 1: ReadyState属性,一般情况下当ReadyState变成READYSTATE_COMPLETE 时 webbrowser控件会触发Document时间来指示页面加载完毕。但是...

2019-08-12 11:47:38

阅读数 19

评论数 0

原创 头条网站selenium 无法模拟下滑

经过上次对与头条进行分析过后,发现_signature的规律不唯一,此研究的目的是为了找到问题的根本。 现将分析步骤总结如下: 当使用webdriver 执行js脚本,模拟下滑操作时, “$_cdc....”in document 为True 经过几次运算后使用 k[5] = 4 正常应该为...

2019-08-12 10:23:36

阅读数 16

评论数 0

原创 爬虫遇到乱码问题!

实例: 转换编码 if font_family is not None: # 仅限网易 font_family = bytes(font_family,encoding='gb18030').decode('utf-8','ignore') ’

2019-07-19 17:33:32

阅读数 29

评论数 0

转载 chrome 的 options 参数

. 背景 在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为。 ...

2019-07-18 13:47:15

阅读数 39

评论数 0

转载 A parser-blocking, cross site (i.e. different eTLD+1) script, https://c.cnzz.com/core.php?web_id=125

很多站长会遇到一个问题,网站加入CNZZ的JS统计代码后,Chrome浏览器出现警告:阻止跨站解析器阻断脚本通过document.write调用(A parser-blocking, cross site script,XXXX.js is invoked via document.write.)...

2019-07-05 13:59:20

阅读数 423

评论数 0

原创 selenium反爬问题(1)

网址:https://www.nst.com.my/actionline python3 + selenium + mitmdump 页面分析: 直有两个文件:(原谅我一直在外部的js中找了好久) 后来发现反爬的js代码在html中!!!!(而且显而易见) 这是什么鬼!!!感觉像...

2019-06-25 17:10:32

阅读数 236

评论数 0

转载 selenium启动Chrome配置参数问题

selenium启动Chrome配置参数问题 每次当selenium启动chrome浏览器的时候,chrome浏览器很干净,没有插件、没有收藏、没有历史记录,这是因为selenium在启动chrome时为了保证最快的运行效率,启动了一个裸浏览器,这就是为什么需要配置参数的原因,但是有些时候我...

2019-06-21 15:49:07

阅读数 40

评论数 0

原创 网站常用检测selenium的发法

多数网站通用的检测selenium的方法。 !function(n) { function i() { return "$cdc_asdjflasutopfhvcZLmcfl_"in u || f.webdriver ...

2019-06-21 13:57:21

阅读数 88

评论数 0

转载 selenium 与 普通浏览器的一些差别

selenium在运行的时候会暴露出一些预定义的Javascript变量(特征字符串),例如"window.navigator.webdriver",在非selenium环境下其值为undefined,而在selenium环境下,其值为true 包括以下属性: webdri...

2019-06-21 13:53:14

阅读数 135

评论数 0

转载 无头浏览器和浏览器在现实html上的区别

看浏览器处理过程中的每一个步骤: 1.处理HTML脚本,生成DOM树 2.处理CSS脚本,生成CSSOM树 (DOM和CSSOM是独立的数据结构) 3.将DOM树和CSSOM树合并为渲染树 4.对渲染树中的内容进行布局,计算每个节点的几何外观 5.将渲染树中的每个节点绘制到屏幕中 He...

2019-06-20 14:56:58

阅读数 86

评论数 0

转载 HTML页面加载和解析流程

1. 用户输入网址(假设是个html页面,并且是第一次访问),浏览器向服务器发出请求,服务器返回html文件; 2. 浏览器开始载入html代码,发现<head>标签内有一个<link>标签引用外部CSS文件; 3. 浏览器又发出CSS文件的请求,服务器返回这个CSS文件; 4. 浏览器继续载入h...

2019-06-20 11:45:28

阅读数 16

评论数 0

转载 浏览器的工作原理

1. 浏览器的主要构成 简单的来说浏览器分为两部分: shell + 内核 shell 是指浏览器的外壳:例如菜单,工具栏等。主要是提供给用户界面操作,参数设置等等 内核才是浏览器的核心。内核是基于标记语言希纳是内容的程序模块 常见的浏览器内核可以分为四种: Trident...

2019-06-20 11:24:04

阅读数 18

评论数 0

提示
确定要删除当前文章?
取消 删除