关闭
当前搜索:

使用scrapy-redis实现分布式爬虫

一、准备工作用来实现分布式爬虫的项目是:爬取知乎用户信息项目 注册了两个服务器:阿里云服务器和腾讯云服务器,使用的系统都是windows系统二、scrapy-redis组件的使用将知乎用户项目下载至本地,并使用git命令新建分支以方便对项目进行更改而不影响之前的项目:git checkout -b distributed #新建分支 git branch #切换分支在项目settings.py中加...
阅读(108) 评论(0)

从Github克隆项目至本地修改的常用命令

下载项目至本地:git clone http://Github.com/xxxx/xxxx新建一个分支:git checkout -b distributed切换至新的分支:git branch将在新的分支上的修改后的项目上传至GitHub: git add A git commit -m "add distributed" git push origin distributed将新的分支上的项目下...
阅读(66) 评论(0)

将本地项目上传至Github

1、首先要注册一个Github账号 2、点击Your profile,进入到仓库管理界面,并新建一个新的仓库 3、在本地项目文件夹内右击,选择“Git Bash Here”,进入到Git命令行中执行如下命令:git init #将项目中的文件加入到git管理 git add . #将项目中的全部内容添加到git git commit -m "提交的信息"...
阅读(71) 评论(0)

使用redis数据库报错: MISCONF Redis is configured to save RDB snapshots

在使用redis数据库过程中报错: redis.clients.jedis.exceptions.JedisDataException: MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data...
阅读(77) 评论(0)

Python爬虫-基于深度优先策略的百度百科爬虫

深度优先策略:优先往纵向挖掘深入,直到到达指定的深度或者该节点不存在邻接节点,才会访问第二条路。 广度优先策略:先访问完一个深度的所有节点,再访问更深一层的所有节点。简单的看: 深度优先爬虫路径:A-B-E-F-C-D 广度优先爬虫路径:A-B-C-D-E-Fimport requests import re import timeexist_urls=[] headers={ 'Us...
阅读(109) 评论(0)

Linux目录管理

处理目录的常用命令:ls:列出目录 cd:切换目录 pwd:显示目前的目录 mkdir:创建一个新的目录 rmdir:删除一个空的目录 cp:复制文件或目录 rm:移除文件或目录一、ls:列出目录选项与参数: -a : 全部的文件,连同隐藏档( 开头为 . 的文件) 一起列出来 -d : 仅列出目录本身,而不是列出目录内的文件数据 -l :长数据串列出,包含文件的属性与权限等等数据二、cd:切...
阅读(91) 评论(0)

Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库

首先,我这里有一份相关城市以及该城市的公园数量的txt文件: 其次,利用百度地图API提供的接口爬取城市公园的相关信息。 所利用的API接口有两个:1、http://api.map.baidu.com/place/v2/search?q=公园&region=北京&output=json&ak=用户的访问密匙 2、http://api.map.baidu.com/place/v2/detail...
阅读(294) 评论(0)

Linux系统目录结构

在命令窗口下输入命令:ls /会看到如下:/bin目录:这个目录存放着最经常使用的命令/boot目录:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件/dev目录:此目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的/etc目录:这个目录用来存放所有的系统管理所需要的配置文件和子目录/home目录:用户的主目录,在Linux中,每个用...
阅读(146) 评论(0)

Python爬虫-尝试使用人工和OCR处理验证码模拟登入

此次是我第一次模拟登入,目标站点是知乎。 刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码,我打开自己的知乎登入页面,发现只有账号和密码,他们说的倒立的验证码去哪了,后面仔细一想我之前登入过知乎,应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了: 参考了大多数的意见,可以模拟登入移动端,验证码形式是我们常见的字母数字组合,避开这个点击倒立的验证码形式,...
阅读(158) 评论(0)

Python爬虫-爬取腾讯小视频

这两天在爬TX的视频的原始下载地址,遇到的问题挺多,感觉这个网站的规律变化多端的,中间也忘了修改过多少次代码了,而且有时候抓包也抓不到一些想要的内容,最后也只能抓到一些像《拜托啦学妹》、《国产整蛊大师》类似的小视频,长时间的视频最后我看了一下只能拿到前五分钟的视频,现在先记录一下,供后续再研究。我是利用Chrome直接进行抓包的,可以拿到视频的真实地址(ps.但是后续多次尝试其他小视频竟然抓不到这个...
阅读(330) 评论(0)

Python爬虫-爬取爆米花视频下载至本地

打开爆米花的网站,然后打开其中一个视频: 打开F12,然后刷新,可以看到: 这个URL为视频的真实地址:http://59.56.28.122/vm48002.baomihua.com/d1b3a2d4195a6e40629c68a03f564af6/59DF39B1/3707/37061900_9_b5948e40ae8611e79ee1003048cc668a.mp4?start=0...
阅读(182) 评论(3)

Python爬虫入门-利用scrapy爬取淘女郎照片

最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址,它主要可以通过改变URL中page参数来实现翻页。 我们这个这个链接进入到一个淘女郎的页面,进入相册页面,里面有很多相册,我们打开其中一个,可以发现照片是慢慢加载出来的,打开F12,刷新,过滤出所有的JS请求,然后不断下拉照片,可以发现也不断有一些JS请求加载出来,打开response,可以看到里面返回的是json格式的数据,里面就有我们要获...
阅读(222) 评论(0)

Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’

第一部分、利用ImagesPipeline爬取pixabay里面的美女图进入pixabay网站在搜索框中输入关键字beauty,并且简化一下URL中的参数: 尝试进行翻页,可见URL中只有一个参数pagi发生变化: 随便进入一个页面打开F12,刷新,在原始的请求中有相关进入到详情页面的链接: 进入到详情页面,同样F12,刷新,在原始请求中也能找到我们最后想要的图片下载链接(注意:此...
阅读(182) 评论(0)

Python爬虫入门-小试CrawlSpider

首先,先转载一张原理图: 再贴一下官方文档的例子:import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractorclass MySpider(CrawlSpider): name = 'example.co...
阅读(74) 评论(0)

Python爬虫入门-fiddler抓取手机新闻评论

之前一直都听过抓包,抓包,但是一直没有在手机上抓过包,这次一试,当做是一次小练习,在网上有挺多Fiddler安装和配置的教程的,我也找了一些,大家可以借鉴:1、Fiddler|Fiddler安装与配置 2、抓包工具Fidder详解(主要来抓取Android中app的请求) 3、使用Fiddler抓到包后分析之前在安装配置Fiddler的过程中因为使用某国产手机的原因无法使用代理被狠狠坑了一下,在...
阅读(392) 评论(0)

Python爬虫入门-利用requsets库爬取煎蛋网妹子图

其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地,无奈这个ImagePipeline一点都不给面子一直报404错误,而且我还不知道问题出在哪里,所以一怒之下就不用框架了,直接爬一下。 先来一张: 从下图可以看出总的页数: 在翻页的过程中URL中只有页数是在发生改变的,这个就比较好构建URL了,而且图片的信心在原始的请求里面...
阅读(382) 评论(0)

Python爬虫入门-scrapy爬取唯一图库高清壁纸

首先,就是进入到唯一图库,点击上面的高清壁纸项目: 进入之后,下拉,发现是正常的下拉没有Ajax加载,拉到最后面点击末页,可以看出这个栏目里面总共有292页: 翻页看一下URL有什么变化,可以发现只有最后面代表这个页码的数字在发生变化: 打开F12,刷新,在原始请求代码里面有能进入到进入详情页的链接地址,可以抓取下来: 打开任意一张图片,进入到详情页码中,同样的F12,再刷新...
阅读(260) 评论(0)

Python爬虫入门-scrapy爬取拉勾网

之前就爬过拉勾网,但是遇到一些错误一直没有办法解决,果断放弃了,今天又重新试着写写看,对于一个菜鸟来说,真的都是处处是坑,写篇文章记录一些,供接下去学习参考。 首先就是打开拉勾网,在搜索栏中输入Python,打开F12,刷新: 在这个原始的请求的response中是没有我们要的数据的,一般这种情况下我就切换到XHR中取中取找:...
阅读(186) 评论(0)

Python爬虫入门-python之jieba库制作词云图

在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看。 在看了 向右奔跑大哥的文章后,知道了词云制作过程大致可以分为这么几个过程: 1、利用Python进行数据的抓取 2、进行分词(例如利用jieba) 3、进行分类汇总(例如利用excel) 4、使用词云工具...
阅读(4241) 评论(0)

Python爬虫入门-python之爬取pexels高清图片

先上张图片: 首先打开网址:https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的,也就是通过Ajax请求得到的。在搜索框中输入关键字:beauty,打开F12,刷新,选中XHR,然后一直下拉下拉: 会发现左侧中的URL只有一个page是在发生变化的,在通过对URL中参数的分析我尝试的将URL中的参数js和format去掉,构造出类似于:https:/...
阅读(1573) 评论(4)
    个人资料
    • 访问:9173次
    • 积分:286
    • 等级:
    • 排名:千里之外
    • 原创:20篇
    • 转载:0篇
    • 译文:0篇
    • 评论:7条
    文章分类
    文章存档