2019年03月_IoneFine

原创字体反爬解析和处理——Python

在爬取网站抓取数据的过程中，有时会遇到这样一种情况：网页浏览正常，开发者模式（F12）查看原来没之后发现关键数据乱码，当然爬取下来的结果也是乱码。这种反爬策略一般称之为字体反爬。以58同城为例：用浏览器随便打开58同城的一个页面，F12调出开发者调试窗口：网页显示正常，调试窗口出现的内容与页面显示不符。回到网页上，右键查看网页源代码，搜索base64关键字，可以看到一大串用base64加...

2019-03-30 21:38:19 1471 1

原创 Python抽象基类、鸭子类型介绍

鸭子类型、Python抽象基类介绍

2019-03-29 18:29:54 670

通过scrapy genspider -l查看Scrapy拥有的爬虫模板：&amp;amp;amp;amp;amp;amp;gt; scrapy genspider --listAvailable templates: basic crawl csvfeed xmlfeed&amp;amp;amp;amp;amp;amp;gt; 1、创建名为spider_pjt3_lagou的爬虫项目：&amp;amp;am

2019-03-26 08:40:19 597

原创 Linux安装Python3解决pip安装过程中出现pip is configured with locations that require TLS/SSL的问题

CentOS7安装Python3之后使用pip命令（准确来说是使用镜像源的时候）出现问题：(Py3_dev) [root@ onefine~]# pip install -i https://pypi.doubanio.com/simple httpbinpip is configured with locations that require TLS/SSL, however the ssl...

2019-03-25 11:39:21 7970 1

原创解决Linux下安装gunicorn提示-bash: gunicorn: command not found

我在CentOS7下安装Python3之后踩坑：[root@localhost ~]# pip3 install httpbin[root@localhost ~]# pip3 install gunicorn[root@localhost ~]# pip listPackage Version ------------ --------...gunicorn 19...

2019-03-25 00:13:03 13857

原创解决Linux新建虚拟环境virtualenvwrapper报错问题

问题：virtualenvwrapper装好后, 发现使用mkvirtualenv XX时, 又找不到virtualenv了：[root@localhost ~]# mkvirtualenv Py3_devwhich: no virtualenv in (/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)ERROR: v...

2019-03-24 23:48:23 4893 1

原创 CentOS 7 安装Python3的配置

接着：Python3.7源码包编译安装 https://blog.csdn.net/jiduochou963/article/details/86694775一、python部分切换（修改默认链接）：$ cd /usr/bin/$ mv python python.back$ mv python-config python-config.back确认一下：[root@local...

2019-03-24 23:11:36 387

原创配置与管理Linux文件系统...更新中

一、理解Linux绝对路径与相对路径先来了解一下绝对路径与相对路径的概念：绝对路径：由根目录（/）开始写起的文件名或目录名称。相对路径：相对于目前路径的文件名写法。技巧：开头不是“/”的就属于相对路径的写法。相对路径是以你当前所在路径的相对位置来表示的。举个栗子来说，你目前在/home这个目录下，如果想要进入/var/log这个目录时，有两种方法：cd /var/log 绝...

2019-03-24 15:13:46 472

原创 python pip出现pip is configured with locations that require TLS/SSL异常处理方法

通过源码方式安装Python3.7之后pip功能异常，提示：[root@localhost ~]# pip install httpbinpip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.Collecting httpbin Re...

2019-03-24 13:42:00 24430 10

原创 SQLAlchemy更新操作的优雅方式

在介绍SQLAlchemy更新操作之前，先来思考一下下面的问题：class Test(object): def __init__(self): self.a = "" self.b = ""if __name__ == "__main__": obj1 = Test() obj2 = Test() obj2.a = "xixi...

2019-03-23 22:51:09 20680 3

原创 ubuntu默认启动命令行界面

图形模式下,首先进入终端：1.运行sudo vim /etc/default/grub2.找到GRUB_CMDLINE_LINUX_DEFAULT=”quiet splash”3.改为 GRUB_CMDLINE_LINUX_DEFAULT=”quiet splash text”（PS: quiet代表不显示详细启动过程;splash代表显示进度条）4.运行sudo upda...

2019-03-22 13:41:23 1283

原创 ElasticSearch基础

。。。待补充什么是ElasticSearch？基于Apache Lucene构建的开源搜索引擎采用Java编写，提供简单易用的RESTFul API轻松的横向扩展，可支持PB级的结构化或非结构化数据处理可用应用场景：海量数据分析引擎站内搜索引擎数据仓库1、群集：一个或者多个结点(node)组织在一起，每个集群都有一个唯一的名称，默认为elasticsea索引：含有相同...

2019-03-20 23:43:12 100

原创 Wget：Windows下安装wget

一、下载：官网：http://gnuwin32.sourceforge.net/packages/wget.htm下载地址：http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe二、安装与系统环境变量配置2.1 安装双击一步步安装即可2.2 配置系统环境变量新建变量GNU_HOME： C:\Program ...

2019-03-20 20:27:46 11512

原创 Elasticsearch，elasticsearch-head插件，Kibana插件安装

Elasticsearch，elasticsearch-head插件，Kibana插件安装

2019-03-20 17:24:26 357

原创 Python第三方ORM库：SQLAlchemy简介

Python ORM之SQLAlchemy

2019-03-18 14:02:36 1105

原创 Scrapy突破反爬虫的限制之自动限速、Cookie禁用

自动限速scrapy限速，settings.py中设置scrapy官方文档： https://doc.scrapy.org/en/latest/topics/autothrottle.htmlCookie禁用cookie禁用，对于那些不需要登录就能够访问到的网站。settings.py中设置COOKIES_ENABLED = False将禁用cookie。不同的spider设置不同的c...

2019-03-17 18:53:06 1984

原创通过download middleware随机更换user-agent，fake-useragent的使用

官方文档：Downloader Middleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html通过download middleware随机更换user-agentUser Agent1中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器...

2019-03-17 16:17:30 608

原创 Scrapy常用命令使用

更新中…(Py3_spider) Soufan_crawl> scrapyScrapy 1.5.2 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run quick benchmark test fetch ...

2019-03-17 10:29:33 216

原创 url参数常用特殊符号转义码

常用特殊符号转义码如下：符号url中转义结果转义码+URL中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F%指定特殊字符%25#表示书签%23&amp;URL中指定的参数间的分隔符%26=URL中指定参数的值%3D参

2019-03-16 23:25:03 4566

原创 MySQL中改变字段或者列的顺序

2019-03-15 12:33:27 3344

原创 Python sys.path的使用

sys.path是python的搜索模块的路径集，是一个list，如下：In [1]: import sysIn [2]: sys.pathOut[2]:['C:\\Users\\xxx\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\ipython.exe', 'c:\\users\\xxx\\appdata\\local\...

2019-03-13 15:52:21 6009

原创 Scrapy中scrapy.loader.processors、scrapy.contrib.loader.processor的区别

区别就是scrapy.contrib.loader.processor模块导入了scrapy.loader.processors中的所有内容：Lib/site-packages/scrapy/loader/processors.py"""This module provides some commonly used processors for Item Loaders.See docu...

2019-03-12 17:43:16 740

原创 scrapy爬取知乎

1、新建&amp;amp;amp;gt; scrapy startproject spider_pjt2_zhihu&amp;amp;amp;gt; cd spider_pjt2_zhihu&amp;amp;amp;gt; scrapy genspider zhihu www.zhihu.com

2019-03-09 10:59:59 467

原创 Scrapy Shell的使用

Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦...

2019-03-09 10:49:31 1674

原创 scrapy之crawls的暂停与重启

Jobs: pausing and resuming crawls1Sometimes, for big sites, it’s desirable to pause crawls and be able to resume them later.Scrapy supports this functionality out of the box by providing the followi...

2019-03-08 10:39:00 933

原创 Selenium集成到Scrapy中

1. 新建知乎爬虫：&amp;gt; SpiderProject\spider_pjt1&amp;gt;scrapy genspider zhihu www.zhihu.com编写zhihu spider的页面解析函数parse()，由于此函数被要求返回一个可迭代对象，所以这里直接返回一个空列表作为测试。# -*- coding: utf-8 -*-# @Author : One Fine# @Fi...

2019-03-07 18:23:57 770

原创 Scrapy Middleware用法简介

一、Downloader Middleware 的用法Downloader Middleware即下载中间件，它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行下载，这个过程会经过Downloader Middleware的处理。另外，当Downloader将Request下载完成得到Respo...

2019-03-07 09:28:51 2938 1

原创 Scrapy框架--Requests对象

详解：https://www.cnblogs.com/thunderLL/p/6551641.html参考：Scrapy框架–Requests对象 https://www.cnblogs.com/thunderLL/p/6551641.html

2019-03-07 00:01:48 214

转载 python 回调函数（Callback）

转载： https://www.zhihu.com/question/19801131/answer/27459821什么是回调函数？我们绕点远路来回答这个问题。编程分为两类：系统编程（system programming）和应用编程（application programming）。所谓系统编程，简单来说，就是编写库；而应用编程就是利用写好的各种库来编写具某种功用的程序，也就是应用。系统程序员...

2019-03-06 23:59:59 2308

原创 Selenium操作无界面浏览器如PhantomJS

phantomjs1，无界面浏览器，多进程情况下phantomjs性能会下降很严重。到phantomjs官网 http://phantomjs.org/download.html 下载相应环境的版本。http://phantomjs.org/ ，此项目已停止维护。 ↩︎...

2019-03-06 18:03:28 371

转载绕过selenium的检测，实现模拟登陆

转载： https://zhuanlan.zhihu.com/p/56040461上一篇文章《selenium的检测与突破》讲过了如果绕过对于webdriver的检测。接下来就可以登陆了吗？别高兴太早：无论我使用’find_element_by_id’还是’find_element_by_xpath’，当输入密码时候都会出现“哎呀出错”的滑动验证码。想必大家都会被此困惑。于是乎，我通过邪恶...

2019-03-05 20:05:27 1399

转载 selenium的检测与突破

转载： https://zhuanlan.zhihu.com/p/56040461当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时，会出现滑动验证码，并且无论是用ActionChains滑还是手动滑，都会很委婉的告诉你“哎呀网络错误，请刷新”等等。why？经过科学上网，查阅众多资料，发现seleniumyou 有一些特征值，例如下面：window.navigator.web...

2019-03-05 19:58:55 9979

原创 Selenium登录知乎

解决selenium + chromedriver被知乎反爬的问题1当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时，会出现滑动验证码，并且无论是用ActionChains滑还是手动滑，都会很委婉的告诉你“哎呀网络错误，请刷新”等等。why？经过科学上网，查阅众多资料，发现seleniumyou 有一些特征值，例如下面：window.navigator.webdriverw...

2019-03-05 19:50:11 962

原创 Selenium用法简介

Selenium 1 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创...

2019-03-05 19:29:33 484

原创 CentOS中防火墙之iptables

参考：CentOS7安装iptables防火墙 https://www.cnblogs.com/kreo/p/4368811.htmlCentOS7使用firewalld打开关闭防火墙与端口 https://www.cnblogs.com/moxiaoan/p/5683743.htmlCentOS7查看和关闭防火墙 https://blog.csdn.net/ytangdigl/ar...

2019-03-04 20:13:19 212

原创 CentOS中防火墙之Firewall

简介firewalld：（系统/网络）就是防火墙！以前有iptables与ip6tables等防火墙机制，新的firewalld搭配firewall-cmd指令，可以快速的设置防火墙系统！因此，从CenterOS 7.1以后，iptables服务的启动脚本已经被忽略！请使用firewalld来取代iptables服务。虽然两者都是使用iptables的架构，不过在设定上面差很多！防火墙设置安...

2019-03-04 15:57:17 433

原创 Redis的简介

NoSQL的概述什么是NoSQLNoSQL = Not Only SQL 非关系型数据库为什么需要NoSQLHigh performance 高并发读写Huge Storage 海量数据的高效率存储和访问High Scalability &amp;amp;amp;amp;&amp;amp;amp;amp; High Availability 高可扩展性和高可用性主流NoSQL产品NoSQL数据库的四大分类键值(Ke.

2019-03-03 22:23:45 164

OneFine的技术博客