python-爬虫
文章平均质量分 64
宅神kin
因为同样的坑不想踩两次而写博客
展开
-
爬虫入门(小白)
简单爬虫 针对一些反爬虫机制不是很成熟甚至没有反爬的网站 可以用来练手 用到的库 urllib json:处理json 网页请求 get post ajax 模拟登陆 异常捕获 HTTPError URLError 简单案例:百度翻译get及post...原创 2018-06-23 17:39:53 · 1021 阅读 · 0 评论 -
爬虫进阶(入门)
1. 代理 代理分类 透明(表面上是代理ip 实际上用的还是真实ip) 匿名(不会用真实的ip,知道是代理ip 但无法识别ip地址) 高匿(模拟浏览器,使用的是代理ip 以假乱真) 使用场景 爬取网站反爬机制会对ip进行限制(封ip)使用import urllib.requestimport urllib.parse# 配...原创 2018-06-25 18:47:19 · 2366 阅读 · 1 评论 -
[干货!]如何使你的爬虫更健壮
如何使你的爬虫更健壮1. 防止url被过滤# dont_filter: 本次请求不执行过滤重复urlrequest = Request(url, dont_filter=True)2.防止自定义的cookie被修改当爬虫需要分页爬取时,携带cookie爬取,所携带的cookie可能会被scrapy中自带的httpCookie.py中的方法所修改,在保证不修改源码的情况...原创 2018-07-03 19:48:37 · 806 阅读 · 1 评论 -
scrapy入门
scrapy 入门什么是scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。scrapy框架的组成引擎爬虫所有行为都由引擎来支配,类似于人的行为都由大脑支配一样自动运行,无需关注,会自动组织所有的请求对象,分发给下载器下载器从引擎处获取到请求对象后,请求数据s...原创 2018-06-28 21:23:48 · 273 阅读 · 0 评论 -
scrapy实战
scrapy实战糗事百科创建项目 scrapy startproject qiubaiproject cd qiubai scrapy genspider qsbkItem.py# -*- coding: utf-8 -*-import scrapyclass QiubaiprojectItem(scrapy.Item): # 统一了spi...原创 2018-06-28 21:25:53 · 1415 阅读 · 0 评论