![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Thomas_Lean
这里只记录总结技术经验,有任何错误尽管提出哈
展开
-
Python爬虫之代理问题
对于从事爬虫的程序猿来说,反爬策略是必不可少的,其中添加请求头就是反爬的一种最为简单的策略。还有就是使用代理ip,说白了就是采集数据时采用不同的ip去访问你要采集数据的网址,可能很多人都会问为什么我需要用代理呢?不用不可以吗?用了代理之后发现爬虫抓取数据的速度反而下降了不少于是放弃爬虫代理的使用。当你抓取的数据达到一定量后,或者大批量采集时,你会发现程序会时不时给你报错,而且频率越来越来高。这说你的爬虫被人家识别出来了,对方的反扒系统已经记住了你。通常会告诉你连接超时、连接中断更有甚者不会直接中断你程序,它原创 2020-10-15 09:37:20 · 1286 阅读 · 0 评论 -
python爬虫采集反爬策略
一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的资料信息。而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可以轻易的爬取资料信息。爬虫想要绕过被反的策略就是尽可能的让服务器人你不是机器程序,所以在程序中就要把自己伪装成浏览器访问网站,这可以极大程度降低被反的概率,那如何做到伪装浏览器呢?##### 1....原创 2020-05-19 09:31:24 · 2639 阅读 · 1 评论 -
Python实现多线程、多进程爬虫
1.多线程的方法使用在python3中,主线程主进程结束,子线程,子进程不会结束 为了能够让主线程回收子线程,可以把子线程设置为守护线程,即该线程不重要,主线程结束,子线程结束t1 = threading.Thread(targe=func,args=(,))t1.setDaemon(True)t1.start() #此时线程才会启动2.队列模块的使用from queue impor...原创 2020-05-07 09:04:32 · 947 阅读 · 0 评论 -
Python爬虫之利用cookies跳过登陆验证码
在大数据时代,很多人会利用爬虫对网上一些数据进行采集,但有些网站为了反爬会出一些策略,在爬取某些网页时,登陆界面时经常遇到的一个坎,而现在大多数的网站在登陆时都会要求用户填写验证码,验证码的形式多种多样,例如静态图片、动态验证码、滑动、12306验证模式、甚至还用上短信验证码。虽然现在技术也可以解决图片识别,但万一网站改了验证方案,那么整套算法都有可能被推翻,很显然强行破解验证码是一个吃力不讨好...原创 2020-04-28 11:59:44 · 5735 阅读 · 0 评论 -
Scrapy结合Selenium采集数据简单实例
做爬虫的都不难发现,有的页面分页,点击下一页,或者指定某页,网址居然不变,如果是基于scrapy框架采集,那么就无法使用yield迭代url进行页面数据解析采集。前段时间刚好有用过selenium自动化模拟打开浏览器采集数据,不能能模拟人为的一些鼠标、键盘操作。很强大,照样能跟scrapy结合的很完美!!!以下就来打一个简单的在百度输入框输入关键词并点击百度一下进行页面的查询操作,然后再解析页...原创 2020-04-13 11:12:59 · 1275 阅读 · 0 评论 -
CentOS搭建Scrapy项目踩坑经历
最近心血来潮想在CentOS上整一个scrapy爬虫项目,经过一番安装后,也提示成功安装后,正当要利用脚手架创建爬虫项目是,居然没创建成功:[root@localhost Spider]# scrapy startproject jobsScrapy 2.0.1 requires Python 3.5最初的想法就是去更改python默认版本,操作如下:查看python安装路径:[roo...原创 2020-04-13 10:45:25 · 734 阅读 · 0 评论 -
CentOs安装selenium、chrome、ChromeDriver(驱动)
1.安装selenium:pip install selenium2.安装chrome最新版本:yum install epel-release;yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm安装chrome版本前可能会失败,需要在shell中执行以下命令后然...原创 2020-04-09 10:28:49 · 2936 阅读 · 0 评论 -
scrapy爬虫简单实例
采用scrapy框架进行爬取。现在一爬取51cto为例子。打开cmd,先用命令行,定位到某个目录,然后执行’scrapy startproject 项目名’,创建爬虫项目,然后打开item文件,代码如下:# -*- coding: utf-8 -*-import scrapyclass SpiderctoItem(scrapy.Item):# define the fields for y...原创 2020-04-10 10:33:08 · 2282 阅读 · 0 评论