python
nickname existed
嗯,暂属于小猴子,但是相信自己能变成一只程序猿!
展开
-
使用selenium模拟爬取京东
现在,许多网站都存在着各式各样的反爬虫技术,但是python中有这么一个库,不敢说能爬取100%的网站,但是至少能爬取95%以上的网站,这个强大的库就是selenium,使用这个库能够完全模拟浏览器的各种功能,虽然相较于requests或者urllib速度较慢一点,但是它也有它自己的优势,使用这个库开启无头浏览器模式的时候,它就是一个浏览器,所以几乎所有的反爬虫技术都对它无用,今天分...原创 2018-09-25 20:24:44 · 1129 阅读 · 2 评论 -
爬取猫眼评分前100的电影
这是简单的聚焦爬虫,爬取猫眼前100的电影,刚学爬虫时写的,没有什么困难的东西,但是如果以后再有新人看到的话,希望能对你产生一点点的帮助,具体代码和注释如下: import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException import pymongo from con...原创 2018-09-25 20:36:15 · 699 阅读 · 0 评论 -
urllib库应用简单整合
这些是我对urllib库的使用的简单整合,我把这些东西都整合在一个文档里面,为的是方便我在使用时查看。没有官方网站的详细,但是这个我觉得对于我这种习惯短暂性遗忘的人来说有点用处,分享出来,希望也能帮到你们^_^ Urllib库 Urllib.request.urlopen(url, data=None, [timeout, ]*,cafile=None,cadefault=False, co...原创 2018-09-25 20:45:20 · 206 阅读 · 0 评论 -
selenium库应用的简单整合
这个也是我从官方网站上抠下来的东西,为的是方便随时查询。因为官方的太多了而且网站打开太慢,有时忘记想要查询的时候速度太慢,所以记下来留着使用,希望你们也能用到^_^! Selenium from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.commo...原创 2018-09-25 20:49:48 · 222 阅读 · 0 评论 -
python中使用requests爬取图片并下载
前段时间由于想找个图片做壁纸,在度娘上搜索一下,出来了许多的图片,打开链接看到一歌网站,突然心血来潮就想着爬下来一些图片,由于这是一个小网站,所以也没做什么防止反爬虫的措施,这次分享主要是分享图片下载和命名的方法,具体代码和注释如下: import requests from bs4 import BeautifulSoup # from requests import exceptions ...原创 2018-09-25 21:04:51 · 1032 阅读 · 0 评论 -
生成和维护一个动态代理池
为什么需要代理,这个就不需要再多做赘述了。现在在网上有许多的免费代理网站,但是用的时候就会发现,那些是真滴不好用,好用点的也都是需要收费的。所以为了省钱(土豪请自便),就需要做自己做一个动态的代理池,在网上不断的爬取有用的代理放入代理池中,定时的检测和更新,然后在使用的时候就直接在自己的代理池中调用就好了。现在在github上有许多的动态代理池的架构,这个是别人视频中提到的,肯定是一个很厉害的大神...原创 2018-09-28 20:10:31 · 927 阅读 · 0 评论 -
分布式爬取顶点小说全站内容
这是一个简单的分布式爬虫,网站其实并不复杂,文章主要为了写一下分布式的布局。 首先使用命令 scrapy genspider -t crawl “爬虫名” 网址,创建一个爬虫。然后添加代码 from scrapy_redis.spiders import RedisCrawlSpider 引入RedisCrawlSpider,并让爬虫继承于此。删除start_urls,并在rules...原创 2018-10-23 20:19:31 · 389 阅读 · 0 评论