爬虫
nickname existed
嗯,暂属于小猴子,但是相信自己能变成一只程序猿!
展开
-
python爬虫爬取拉勾网站内容
本次主要内容是分享下拉勾网站模拟搜索以及搜索内容的爬取,这里先引入一些用到的库,由于网站本身的反爬虫技术和网络原因,这里使用了fake_useragent和多线程模式,当然如果有条件的话也可以使用代理池,这样可以更加保险一点。由于我没有弄那些收费的代理,而免费的代理有时会出现问题,所有就没有使用。import requestsimport jsonimport pymong...原创 2018-09-25 18:27:37 · 331 阅读 · 0 评论 -
分布式爬取顶点小说全站内容
这是一个简单的分布式爬虫,网站其实并不复杂,文章主要为了写一下分布式的布局。首先使用命令 scrapy genspider -t crawl “爬虫名” 网址,创建一个爬虫。然后添加代码 from scrapy_redis.spiders import RedisCrawlSpider引入RedisCrawlSpider,并让爬虫继承于此。删除start_urls,并在rules...原创 2018-10-23 20:19:31 · 401 阅读 · 0 评论 -
生成和维护一个动态代理池
为什么需要代理,这个就不需要再多做赘述了。现在在网上有许多的免费代理网站,但是用的时候就会发现,那些是真滴不好用,好用点的也都是需要收费的。所以为了省钱(土豪请自便),就需要做自己做一个动态的代理池,在网上不断的爬取有用的代理放入代理池中,定时的检测和更新,然后在使用的时候就直接在自己的代理池中调用就好了。现在在github上有许多的动态代理池的架构,这个是别人视频中提到的,肯定是一个很厉害的大神...原创 2018-09-28 20:10:31 · 938 阅读 · 0 评论 -
使用scrapy爬取知乎用户信息
这个小爬虫主要的思想是找到一个大v,然后通过爬取这个大v的粉丝来获取用户信息,再通过粉丝的粉丝等依次往下获取信息,类似一个树状的结构。选一个大v:https://www.zhihu.com/people/xuxiaofeng1993/activities 然后通过分析网页可知,他关注的人信息所在的接口:https://www.zhihu.com/api/v4/members/...原创 2018-09-26 22:00:09 · 208 阅读 · 0 评论 -
一个简单的爬虫限流器设置
在许多的网站中,都存在着下载限流的反爬虫技术,如果我们下载过快的话,就容易被封ip,这时就需要一个下载限流器来限制我们爬虫的下载速度,一个简单的下载限流器代码如下:class Throttle: """ 下载限流器 """ def __init__(self,delay): self.domains={} #可以放到数据库中 ...原创 2018-09-25 21:44:33 · 739 阅读 · 0 评论 -
通过分析ajax,使用正则表达式爬取今日头条
今日头条是一个动态加载页面的网站,这一类的网站直接使用requests爬取的话得不到我们想要的内容。所以一般这类的网站都是通过分析ajax来进行抓包来获取我们想要的内容。老规矩,首先列出需要引入的库:import jsonimport osfrom urllib.parse import urlencodeimport pymongoimport requestsfrom bs...原创 2018-09-25 21:34:05 · 391 阅读 · 0 评论 -
python中使用requests爬取图片并下载
前段时间由于想找个图片做壁纸,在度娘上搜索一下,出来了许多的图片,打开链接看到一歌网站,突然心血来潮就想着爬下来一些图片,由于这是一个小网站,所以也没做什么防止反爬虫的措施,这次分享主要是分享图片下载和命名的方法,具体代码和注释如下:import requestsfrom bs4 import BeautifulSoup# from requests import exceptions...原创 2018-09-25 21:04:51 · 1045 阅读 · 0 评论 -
selenium库应用的简单整合
这个也是我从官方网站上抠下来的东西,为的是方便随时查询。因为官方的太多了而且网站打开太慢,有时忘记想要查询的时候速度太慢,所以记下来留着使用,希望你们也能用到^_^! Seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.commo...原创 2018-09-25 20:49:48 · 231 阅读 · 0 评论 -
urllib库应用简单整合
这些是我对urllib库的使用的简单整合,我把这些东西都整合在一个文档里面,为的是方便我在使用时查看。没有官方网站的详细,但是这个我觉得对于我这种习惯短暂性遗忘的人来说有点用处,分享出来,希望也能帮到你们^_^Urllib库Urllib.request.urlopen(url, data=None, [timeout, ]*,cafile=None,cadefault=False, co...原创 2018-09-25 20:45:20 · 213 阅读 · 0 评论 -
爬取猫眼评分前100的电影
这是简单的聚焦爬虫,爬取猫眼前100的电影,刚学爬虫时写的,没有什么困难的东西,但是如果以后再有新人看到的话,希望能对你产生一点点的帮助,具体代码和注释如下:import requestsfrom bs4 import BeautifulSoupfrom requests.exceptions import RequestExceptionimport pymongofrom con...原创 2018-09-25 20:36:15 · 706 阅读 · 0 评论 -
使用selenium模拟爬取京东
现在,许多网站都存在着各式各样的反爬虫技术,但是python中有这么一个库,不敢说能爬取100%的网站,但是至少能爬取95%以上的网站,这个强大的库就是selenium,使用这个库能够完全模拟浏览器的各种功能,虽然相较于requests或者urllib速度较慢一点,但是它也有它自己的优势,使用这个库开启无头浏览器模式的时候,它就是一个浏览器,所以几乎所有的反爬虫技术都对它无用,今天分...原创 2018-09-25 20:24:44 · 1145 阅读 · 2 评论 -
一个带有简单去重的mongoDB数据库存储
上篇爬虫文章中我引入了一个mongochache,这里发一下源码并做下简介。在这个存储app中,使用了数据序列化和压缩,但是由于爬取的内容不算多,所以我在实际的应用中将这两个作用给注释掉了。在这里我简单的写入了增删改查的一些应用,有点简陋,但是.....,对于一般的数据而言应该能够满足,具体代码如下:import pickle #对象序列化import zlib #压缩数据fro...原创 2018-09-25 20:02:14 · 661 阅读 · 0 评论 -
使用scrapy框架Item用法,ItemLoader
MapCompose()可出路多个函数来处理纸然后返回。举个栗子,如果要给某个字符串加上一个前缀,可以定义一个这样的方法:from scrapy.item import Itemfrom scrapy。loader import ItemLoaderfrom scrapy import Fieldfrom scrapy.loader.processors import MapCompo...原创 2018-10-23 20:58:33 · 590 阅读 · 0 评论