爬虫
水痕01
暂停更新博客
展开
-
关于selenium在python爬虫过程中的使用
一、关于selenium的介绍 根据百度百科介绍:Selenium是一个用于Web应用程序测试的工具,在现在的爬虫领域中可以直接模拟浏览器请求web服务器,使用场景:Ajax加载的页面,现代前端框架react、vue、angular开发的项目,你查看源代码根本看不到东西的那种情况下。二、关于selenium的下载与安装1、安装pip install selenium2...原创 2018-04-22 09:48:15 · 838 阅读 · 0 评论 -
python爬虫系列(2.3-requests库模拟用户登录)
一、模拟登录拉钩网import reimport requestsclass LoginLaGou(object): """ 模拟登录拉钩网 """ def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel M...原创 2018-10-23 09:58:49 · 943 阅读 · 0 评论 -
python爬虫系列(2.2-requests库的高级使用)
一、设置代理ip1、直接在请求的时候加上proxies就可以,注意我们一般会写上http和https的,这样当遇到http请求就会走http字典对应的代理2、具体代码import requestsif __name__ == "__main__": # 定义一个请求头(模拟浏览器) headers = { 'User-Agent': 'Mozill...原创 2018-10-23 09:56:45 · 372 阅读 · 0 评论 -
python爬虫系列(2.1-requests库的基本的使用)
一、基本认识1、发送一个get请求import requestsif __name__ == "__main__": # 获取一个get请求 response = requests.get('http://httpbin.org/get')2、关于获取请求到数据常见的返回值import requestsif __name__ == "__main__":...原创 2018-10-22 14:53:01 · 565 阅读 · 0 评论 -
python爬虫系列(1.2-urllib模块中request 常用方法)
一、request.Request方法的使用上一章节中介绍了request.urlopen()的使用,仅仅的很简单的使用,不能设置请求头及cookie的东西,request.Request()方法就是进一步的包装请求.1、源码查看参数class Request: def __init__(self, url, data=None, headers={}, origin_re...原创 2018-10-22 14:49:31 · 562 阅读 · 0 评论 -
python爬虫系列(1.1-urllib模块常用方法的介绍)
一、关于urllib中常用方法的介绍1、urlopen网络请求urlopen方法是网络请求的方法,默认是get请求,如果传递了data是post请求from urllib import requestif __name__ == "__main__": response = request.urlopen('http://www.baidu.com') print...原创 2018-10-22 14:46:23 · 367 阅读 · 0 评论 -
scrapy框架之item pipeline的使用
一、关于scrapy中pipleline的基本认识 Item Pipeline又称之为管道,顾名思义就是对数据的过滤处理,其主要的作用包括如下:清理HTML数据。验证爬取数据,检查爬取字段。查重并丢弃重复内容。将爬取结果保存到数据库。二、几个核心的方法 创建一个项目的时候都会自带pipeline其中就实现了process_item(item, spider)...原创 2018-05-15 12:17:38 · 4536 阅读 · 0 评论 -
scrapy框架中crawlspider的使用
一、初识crawlspider1、创建项目scrapy startproject 项目名称2、查看爬虫模板scrapy genspider -l3、创建crawl模板scrapy genspider -t crawl 爬虫名称 地址4、自动生成模板如下import scrapyfrom scrapy.linkextractors import LinkExtracto...原创 2018-05-14 08:22:56 · 1853 阅读 · 0 评论 -
scrapy开发几个注意点
一、开发工具pycharm使用debugger功能 在scrapy开发过程中需要开启debugger调试模式配置如下:1、在根目录下才创建一个main.py的文件2、在里面书写的代码内容from scrapy.cmdline import executeimport sysimport os# 将当前文件添加到path路径下sys.path.append(os....原创 2018-04-22 15:03:32 · 635 阅读 · 0 评论 -
关于爬虫与反爬虫对抗过程以及策略
一、关于爬虫与反爬虫对抗过程以及策略二、爬虫突破反爬虫的常见方法1、随机的修改请求头(User-Agent)模拟浏览器请求2、随机更改请求ip地址3、设置请求时间(不要请求过频繁)4、云打码识别图片验证码5、模拟人工操作对滑动解锁三、自己在settings.py中定义一个请求头列表来模拟浏览器请求1、在配置文件中定义一个列表user_agent_list ...原创 2018-04-22 10:42:08 · 2568 阅读 · 0 评论 -
scrapy中关于ItemLoader的使用
一、ItemLoader与Item的区别ItemLoader是负责数据的收集、处理、填充,item仅仅是承载了数据本身数据的收集、处理、填充归功于item loader中两个重要组件: 输入处理input processors输出处理output processors 二、关于ItemLoader的使用1、创建一个项目并创建一个爬虫2、在item.py中使用imp...原创 2018-04-22 10:35:30 · 1349 阅读 · 0 评论 -
scrapy爬取的数据存入到数据库中
一般我们爬取的数据要存入到数据库或者生成本地文件才有意义一、爬取的数据直接在本地生成文件1、方法一、直接在运行命令的时候生成问scrapy crawl 爬虫名字 -o 文件名2、方法二、在管道中利用文件的写入方式1、管道的代码import json# quotes爬取的数据写到本地class QuotesPipelines(object): de...原创 2018-04-22 10:20:51 · 3779 阅读 · 0 评论 -
利用requests库下载视频
有时候在地铁上刷刷今日头条或者抖音,看到一些比较搞笑的视频段子,刚好会python爬虫,就尝试通过爬虫requets库将视频抓取下来一、具体代码实现1、将今日头条上的视频分享到微信,然后用浏览器打开视频地址2、点击播放视频,然后点击network中复制视频的播放地址3、具体的代码实现import osimport requests# video_url = 'ht...原创 2019-01-07 17:00:25 · 5182 阅读 · 1 评论