- 博客(37)
- 收藏
- 关注
原创 字体反爬解析和处理——Python
在爬取网站抓取数据的过程中,有时会遇到这样一种情况:网页浏览正常,开发者模式(F12)查看原来没之后发现关键数据乱码,当然爬取下来的结果也是乱码。这种反爬策略一般称之为字体反爬。以58同城为例:用浏览器随便打开58同城的一个页面,F12调出开发者调试窗口:网页显示正常,调试窗口出现的内容与页面显示不符。回到网页上,右键查看网页源代码,搜索base64关键字,可以看到一大串用base64加...
2019-03-30 21:38:19 1471 1
原创 Scrapy爬虫模板之CrawlSpider
通过scrapy genspider -l查看Scrapy拥有的爬虫模板:> scrapy genspider --listAvailable templates: basic crawl csvfeed xmlfeed> 1、创建名为spider_pjt3_lagou的爬虫项目:&am
2019-03-26 08:40:19 597
原创 Linux安装Python3解决pip安装过程中出现pip is configured with locations that require TLS/SSL的问题
CentOS7安装Python3之后使用pip命令(准确来说是使用镜像源的时候)出现问题:(Py3_dev) [root@ onefine~]# pip install -i https://pypi.doubanio.com/simple httpbinpip is configured with locations that require TLS/SSL, however the ssl...
2019-03-25 11:39:21 7970 1
原创 解决Linux下安装gunicorn提示-bash: gunicorn: command not found
我在CentOS7下安装Python3之后踩坑:[root@localhost ~]# pip3 install httpbin[root@localhost ~]# pip3 install gunicorn[root@localhost ~]# pip listPackage Version ------------ --------...gunicorn 19...
2019-03-25 00:13:03 13857
原创 解决Linux新建虚拟环境virtualenvwrapper报错问题
问题:virtualenvwrapper装好后, 发现使用mkvirtualenv XX时, 又找不到virtualenv了:[root@localhost ~]# mkvirtualenv Py3_devwhich: no virtualenv in (/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)ERROR: v...
2019-03-24 23:48:23 4893 1
原创 CentOS 7 安装Python3的配置
接着:Python3.7源码包编译安装 https://blog.csdn.net/jiduochou963/article/details/86694775一、python部分切换(修改默认链接):$ cd /usr/bin/$ mv python python.back$ mv python-config python-config.back确认一下:[root@local...
2019-03-24 23:11:36 387
原创 配置与管理Linux文件系统...更新中
一、理解Linux绝对路径与相对路径先来了解一下绝对路径与相对路径的概念:绝对路径:由根目录(/)开始写起的文件名或目录名称。相对路径:相对于目前路径的文件名写法。技巧:开头不是“/”的就属于相对路径的写法。相对路径是以你当前所在路径的相对位置来表示的。举个栗子来说,你目前在/home这个目录下,如果想要进入/var/log这个目录时,有两种方法:cd /var/log 绝...
2019-03-24 15:13:46 472
原创 python pip出现pip is configured with locations that require TLS/SSL异常处理方法
通过源码方式安装Python3.7之后pip功能异常,提示:[root@localhost ~]# pip install httpbinpip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.Collecting httpbin Re...
2019-03-24 13:42:00 24430 10
原创 SQLAlchemy更新操作的优雅方式
在介绍SQLAlchemy更新操作之前,先来思考一下下面的问题:class Test(object): def __init__(self): self.a = "" self.b = ""if __name__ == "__main__": obj1 = Test() obj2 = Test() obj2.a = "xixi...
2019-03-23 22:51:09 20680 3
原创 ubuntu默认启动命令行界面
图形模式下,首先进入终端:1.运行sudo vim /etc/default/grub2.找到GRUB_CMDLINE_LINUX_DEFAULT=”quiet splash”3.改为 GRUB_CMDLINE_LINUX_DEFAULT=”quiet splash text”(PS: quiet代表不显示详细启动过程;splash代表显示进度条)4.运行sudo upda...
2019-03-22 13:41:23 1283
原创 ElasticSearch基础
。。。待补充什么是ElasticSearch?基于Apache Lucene构建的开源搜索引擎采用Java编写,提供简单易用的RESTFul API轻松的横向扩展,可支持PB级的结构化或非结构化数据处理可用应用场景:海量数据分析引擎站内搜索引擎数据仓库1、群集:一个或者多个结点(node)组织在一起,每个集群都有一个唯一的名称,默认为elasticsea索引:含有相同...
2019-03-20 23:43:12 100
原创 Wget:Windows下安装wget
一、下载:官网:http://gnuwin32.sourceforge.net/packages/wget.htm下载地址:http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe二、安装与系统环境变量配置2.1 安装 双击一步步安装即可2.2 配置系统环境变量新建变量GNU_HOME: C:\Program ...
2019-03-20 20:27:46 11512
原创 Elasticsearch,elasticsearch-head插件,Kibana插件安装
Elasticsearch,elasticsearch-head插件,Kibana插件安装
2019-03-20 17:24:26 357
原创 Scrapy突破反爬虫的限制之自动限速、Cookie禁用
自动限速scrapy限速,settings.py中设置scrapy官方文档: https://doc.scrapy.org/en/latest/topics/autothrottle.htmlCookie禁用cookie禁用,对于那些不需要登录就能够访问到的网站。settings.py中设置COOKIES_ENABLED = False将禁用cookie。不同的spider设置不同的c...
2019-03-17 18:53:06 1984
原创 通过download middleware随机更换user-agent,fake-useragent的使用
官方文档:Downloader Middleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html通过download middleware随机更换user-agentUser Agent1中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器...
2019-03-17 16:17:30 608
原创 Scrapy常用命令使用
更新中…(Py3_spider) Soufan_crawl> scrapyScrapy 1.5.2 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run quick benchmark test fetch ...
2019-03-17 10:29:33 216
原创 url参数常用特殊符号转义码
常用特殊符号转义码如下:符号url中转义结果转义码+URL中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F%指定特殊字符%25#表示书签%23&amp;URL中指定的参数间的分隔符%26=URL中指定参数的值%3D参
2019-03-16 23:25:03 4566
原创 MySQL中改变字段或者列的顺序
MySQL数据库test_db中创建一张表test_db:mysql&gt; use test_dbDatabase changedmysql&gt; desc test_db;+-------+--------------+------+-----+---------+-------+| Field | Type | Null | Key | Default | Ext...
2019-03-15 12:33:27 3344
原创 Python sys.path的使用
sys.path是python的搜索模块的路径集,是一个list,如下:In [1]: import sysIn [2]: sys.pathOut[2]:['C:\\Users\\xxx\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\ipython.exe', 'c:\\users\\xxx\\appdata\\local\...
2019-03-13 15:52:21 6009
原创 Scrapy中scrapy.loader.processors、scrapy.contrib.loader.processor的区别
区别就是scrapy.contrib.loader.processor模块导入了scrapy.loader.processors中的所有内容:Lib/site-packages/scrapy/loader/processors.py"""This module provides some commonly used processors for Item Loaders.See docu...
2019-03-12 17:43:16 740
原创 scrapy爬取知乎
1、新建&amp;amp;amp;gt; scrapy startproject spider_pjt2_zhihu&amp;amp;amp;gt; cd spider_pjt2_zhihu&amp;amp;amp;gt; scrapy genspider zhihu www.zhihu.com
2019-03-09 10:59:59 467
原创 Scrapy Shell的使用
Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦...
2019-03-09 10:49:31 1674
原创 scrapy之crawls的暂停与重启
Jobs: pausing and resuming crawls1Sometimes, for big sites, it’s desirable to pause crawls and be able to resume them later.Scrapy supports this functionality out of the box by providing the followi...
2019-03-08 10:39:00 933
原创 Selenium集成到Scrapy中
1. 新建知乎爬虫:&amp;gt; SpiderProject\spider_pjt1&amp;gt;scrapy genspider zhihu www.zhihu.com编写zhihu spider的页面解析函数parse(),由于此函数被要求返回一个可迭代对象,所以这里直接返回一个空列表作为测试。# -*- coding: utf-8 -*-# @Author : One Fine# @Fi...
2019-03-07 18:23:57 770
原创 Scrapy Middleware用法简介
一、Downloader Middleware 的用法Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行下载,这个过程会经过Downloader Middleware的处理。另外,当Downloader将Request下载完成得到Respo...
2019-03-07 09:28:51 2938 1
原创 Scrapy框架--Requests对象
详解:https://www.cnblogs.com/thunderLL/p/6551641.html参考:Scrapy框架–Requests对象 https://www.cnblogs.com/thunderLL/p/6551641.html
2019-03-07 00:01:48 214
转载 python 回调函数(Callback)
转载: https://www.zhihu.com/question/19801131/answer/27459821什么是回调函数?我们绕点远路来回答这个问题。编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员...
2019-03-06 23:59:59 2308
原创 Selenium操作无界面浏览器如PhantomJS
phantomjs1,无界面浏览器,多进程情况下phantomjs性能会下降很严重。到phantomjs官网 http://phantomjs.org/download.html 下载相应环境的版本。http://phantomjs.org/ , 此项目已停止维护。 ↩︎...
2019-03-06 18:03:28 371
转载 绕过selenium的检测,实现模拟登陆
转载: https://zhuanlan.zhihu.com/p/56040461上一篇文章《selenium的检测与突破》讲过了如果绕过对于webdriver的检测。接下来就可以登陆了吗?别高兴太早:无论我使用’find_element_by_id’还是’find_element_by_xpath’,当输入密码时候都会出现“哎呀出错”的滑动验证码。想必大家都会被此困惑。于是乎,我通过邪恶...
2019-03-05 20:05:27 1399
转载 selenium的检测与突破
转载: https://zhuanlan.zhihu.com/p/56040461当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等。why?经过科学上网,查阅众多资料,发现seleniumyou 有一些特征值, 例如下面:window.navigator.web...
2019-03-05 19:58:55 9979
原创 Selenium登录知乎
解决selenium + chromedriver被知乎反爬的问题1当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等。why?经过科学上网,查阅众多资料,发现seleniumyou 有一些特征值, 例如下面:window.navigator.webdriverw...
2019-03-05 19:50:11 962
原创 Selenium用法简介
Selenium 1 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创...
2019-03-05 19:29:33 484
原创 CentOS中防火墙之iptables
参考:CentOS7安装iptables防火墙 https://www.cnblogs.com/kreo/p/4368811.htmlCentOS7使用firewalld打开关闭防火墙与端口 https://www.cnblogs.com/moxiaoan/p/5683743.htmlCentOS7查看和关闭防火墙 https://blog.csdn.net/ytangdigl/ar...
2019-03-04 20:13:19 212
原创 CentOS中防火墙之Firewall
简介firewalld:(系统/网络)就是防火墙!以前有iptables与ip6tables等防火墙机制,新的firewalld搭配firewall-cmd指令,可以快速的设置防火墙系统!因此,从CenterOS 7.1以后,iptables服务的启动脚本已经被忽略!请使用firewalld来取代iptables服务。虽然两者都是使用iptables的架构,不过在设定上面差很多!防火墙设置安...
2019-03-04 15:57:17 433
原创 Redis的简介
NoSQL的概述什么是NoSQLNoSQL = Not Only SQL 非关系型数据库为什么需要NoSQLHigh performance 高并发读写Huge Storage 海量数据的高效率存储和访问High Scalability &amp;amp;amp;amp;&amp;amp;amp;amp; High Availability 高可扩展性和高可用性主流NoSQL产品NoSQL数据库的四大分类键值(Ke.
2019-03-03 22:23:45 164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人