自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

原创 使用scrapy框架Item用法,ItemLoader

MapCompose()可出路多个函数来处理纸然后返回。举个栗子,如果要给某个字符串加上一个前缀,可以定义一个这样的方法:from scrapy.item import Itemfrom scrapy。loader import ItemLoaderfrom scrapy import Fieldfrom scrapy.loader.processors import MapCompo...

2018-10-23 20:58:33 576

原创 分布式爬取顶点小说全站内容

这是一个简单的分布式爬虫,网站其实并不复杂,文章主要为了写一下分布式的布局。首先使用命令 scrapy genspider -t crawl “爬虫名”  网址,创建一个爬虫。然后添加代码 from scrapy_redis.spiders import RedisCrawlSpider引入RedisCrawlSpider,并让爬虫继承于此。删除start_urls,并在rules...

2018-10-23 20:19:31 387

原创 生成和维护一个动态代理池

为什么需要代理,这个就不需要再多做赘述了。现在在网上有许多的免费代理网站,但是用的时候就会发现,那些是真滴不好用,好用点的也都是需要收费的。所以为了省钱(土豪请自便),就需要做自己做一个动态的代理池,在网上不断的爬取有用的代理放入代理池中,定时的检测和更新,然后在使用的时候就直接在自己的代理池中调用就好了。现在在github上有许多的动态代理池的架构,这个是别人视频中提到的,肯定是一个很厉害的大神...

2018-09-28 20:10:31 924

原创 使用scrapy爬取知乎用户信息

这个小爬虫主要的思想是找到一个大v,然后通过爬取这个大v的粉丝来获取用户信息,再通过粉丝的粉丝等依次往下获取信息,类似一个树状的结构。选一个大v:https://www.zhihu.com/people/xuxiaofeng1993/activities 然后通过分析网页可知,他关注的人信息所在的接口:https://www.zhihu.com/api/v4/members/...

2018-09-26 22:00:09 197

原创 一个简单的爬虫限流器设置

在许多的网站中,都存在着下载限流的反爬虫技术,如果我们下载过快的话,就容易被封ip,这时就需要一个下载限流器来限制我们爬虫的下载速度,一个简单的下载限流器代码如下:class Throttle: """ 下载限流器 """ def __init__(self,delay): self.domains={} #可以放到数据库中 ...

2018-09-25 21:44:33 722

原创 通过分析ajax,使用正则表达式爬取今日头条

今日头条是一个动态加载页面的网站,这一类的网站直接使用requests爬取的话得不到我们想要的内容。所以一般这类的网站都是通过分析ajax来进行抓包来获取我们想要的内容。老规矩,首先列出需要引入的库:import jsonimport osfrom urllib.parse import urlencodeimport pymongoimport requestsfrom bs...

2018-09-25 21:34:05 379

原创 python中使用requests爬取图片并下载

前段时间由于想找个图片做壁纸,在度娘上搜索一下,出来了许多的图片,打开链接看到一歌网站,突然心血来潮就想着爬下来一些图片,由于这是一个小网站,所以也没做什么防止反爬虫的措施,这次分享主要是分享图片下载和命名的方法,具体代码和注释如下:import requestsfrom bs4 import BeautifulSoup# from requests import exceptions...

2018-09-25 21:04:51 1031

原创 selenium库应用的简单整合

这个也是我从官方网站上抠下来的东西,为的是方便随时查询。因为官方的太多了而且网站打开太慢,有时忘记想要查询的时候速度太慢,所以记下来留着使用,希望你们也能用到^_^! Seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.commo...

2018-09-25 20:49:48 218

原创 urllib库应用简单整合

 这些是我对urllib库的使用的简单整合,我把这些东西都整合在一个文档里面,为的是方便我在使用时查看。没有官方网站的详细,但是这个我觉得对于我这种习惯短暂性遗忘的人来说有点用处,分享出来,希望也能帮到你们^_^Urllib库Urllib.request.urlopen(url, data=None, [timeout, ]*,cafile=None,cadefault=False, co...

2018-09-25 20:45:20 205

原创 爬取猫眼评分前100的电影

这是简单的聚焦爬虫,爬取猫眼前100的电影,刚学爬虫时写的,没有什么困难的东西,但是如果以后再有新人看到的话,希望能对你产生一点点的帮助,具体代码和注释如下:import requestsfrom bs4 import BeautifulSoupfrom requests.exceptions import RequestExceptionimport pymongofrom con...

2018-09-25 20:36:15 698

原创 使用selenium模拟爬取京东

       现在,许多网站都存在着各式各样的反爬虫技术,但是python中有这么一个库,不敢说能爬取100%的网站,但是至少能爬取95%以上的网站,这个强大的库就是selenium,使用这个库能够完全模拟浏览器的各种功能,虽然相较于requests或者urllib速度较慢一点,但是它也有它自己的优势,使用这个库开启无头浏览器模式的时候,它就是一个浏览器,所以几乎所有的反爬虫技术都对它无用,今天分...

2018-09-25 20:24:44 1124 2

原创 一个带有简单去重的mongoDB数据库存储

上篇爬虫文章中我引入了一个mongochache,这里发一下源码并做下简介。在这个存储app中,使用了数据序列化和压缩,但是由于爬取的内容不算多,所以我在实际的应用中将这两个作用给注释掉了。在这里我简单的写入了增删改查的一些应用,有点简陋,但是.....,对于一般的数据而言应该能够满足,具体代码如下:import pickle #对象序列化import zlib #压缩数据fro...

2018-09-25 20:02:14 647

原创 python爬虫爬取拉勾网站内容

       本次主要内容是分享下拉勾网站模拟搜索以及搜索内容的爬取,这里先引入一些用到的库,由于网站本身的反爬虫技术和网络原因,这里使用了fake_useragent和多线程模式,当然如果有条件的话也可以使用代理池,这样可以更加保险一点。由于我没有弄那些收费的代理,而免费的代理有时会出现问题,所有就没有使用。import requestsimport jsonimport pymong...

2018-09-25 18:27:37 319

pygame中的颜色调试

python中pygame中实现颜色调试,大神的作品,我拉过来看看

2018-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除