爬虫
飞车穿越联盟
python爬虫,数据分析,机器学习,人工智能学习
展开
-
python+selenium+scrapy框架爬取斗鱼主播相册内的 图片
#准备工作1.python版本3.82.pip install selenium:由于斗鱼上的很多关键数据都是通过ajax请求来获取的,所以需要安装selenium来控制浏览器点击3.谷歌浏览器+与之对应chromedriver:火狐浏览器也可以不过笔者用的是谷歌版的4.安装scrpay框架#代码分析#这是spider类的具体代码*import scrapyimport jsonfrom selenium import webdriverfrom selenium.webdriver原创 2020-08-13 21:48:08 · 315 阅读 · 2 评论 -
斗鱼爬取主播相册爬虫函数封装
针对上一篇博客的函数进行了封装优化,爬虫运行速度更快,界面更简洁!这是主函数的优化具体看上一篇博客内容下面是爬虫的粗略工作流程:import scrapyimport jsonfrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.suppor原创 2020-08-16 14:11:53 · 227 阅读 · 1 评论 -
爬取拉钩网所有python职位信息
爬取所有关键字时python的职位信息并保存为csv格式项目在github下载地址:lagou-crawl-download说明:1.关键字可以是任意的在相应函数中修改就可以2.由于反爬虫需要添加middleware中间件,来添加随机请求头和代理3.由于使用selenium不添加代理只能爬取十几页的信息,想要爬取所有的应该是三十页左右4.你也可以通过参数来自定义起始页和第几个位置开始下载主要是为了防止由于网速等外界因素导致爬虫只能下载一部分,下次可以从上次结束的位置下载5.具体信息说明如下:原创 2020-08-16 17:05:58 · 246 阅读 · 0 评论 -
python实现分布式爬取房天下数据的详细实现过程
**- @[TOC]提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、任务目标二、步骤1.准备工作2.修改为分布式3.运行爬虫三、结果前言首先,如何做一个分布式爬虫呢?其实不难,因为有scrapy-redis第三方库帮我们实现了、首先先写好一个本地的爬虫,然后再根据需求改一下就可以 了,简单吧!。一、任务目标win10作为redis主服务器,在ubuntu中linux系统以及本机win10同时运行爬虫程序,并将爬取到的数据存储到win10 的redis数据原创 2020-09-06 15:40:40 · 520 阅读 · 0 评论 -
scrapy yield request失效问题
1.出现的域名问题,可能yield request 中url允许的域名没有添加进去allowed_domains = [‘www.search.51job.com’,‘www.jobs.51job.com’]2.可以试试添加dont filter = trueyield scrapy.Request(url=url, callback=self.detail, dont_filter=True)...原创 2020-09-27 10:28:29 · 604 阅读 · 0 评论 -
selenium+scrapy爬取前程无忧职位
目标: 爬取前程无忧网站职位关键字为python的职位信息分析首页的链接地址:‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,1.html’不同页码对应url‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,page.html’ 其中page对应页数存在的问题对第一页爬取数据发现不能解析职位信息:将获得的响应保存为h原创 2020-09-28 06:46:35 · 694 阅读 · 1 评论 -
scrapy爬取网站在线播放TS视频流片段并整合为MP4格式
目标:爬取网站在线播放的视频分析:1.网站:天一影视 视频:天地争霸美猴王第一集2.request请求:'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000001.ts------>'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000664.ts可以看出只有最后不同:视频流从001.ts–&g原创 2020-09-29 11:00:35 · 8998 阅读 · 3 评论