爬虫学习
网络毒刘
因为同样的坑不想踩两次而写博客,
也同样为了社会更好的进步...
其实 Python 已经是一个很老的编程语言了,到现在(2019年) Python 已经高龄 28 岁,比很多程序员的年龄都大。现在之所以这么流行和社区、人工智能AI的日益发展,有很大的关系。
千里之行始于足下,还不开始学习 Python编程吗
个人公众号:网络毒刘
一名热爱分享技术的宝藏博主。
公众号回复1024,有免费教程分享。
展开
-
【spider】多线程爬虫
多线程工作原理多线程示意图Queue(队列对象)queue是python中的标准库,可以直接from queue import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。Queue,是线程安全的,因此在满足使用条件下,建议使用队列创建一个“队列”对象pageQueue = Queue...原创 2019-10-31 20:06:38 · 657 阅读 · 0 评论 -
【spider】selenium模拟点击斗鱼示例
from selenium import webdriverimport timeurl = 'https://www.douyu.com/directory/all'# 动态html网页加载可能出现的问题:element is not attached to the page document# 标签没有及时的加载显示出来,如果加载时间不够,可能报错# try except...原创 2019-10-31 19:24:47 · 671 阅读 · 0 评论 -
【spider】Tesseract机器视觉实现验证码识别
本文将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 Python库来识别和使用在线图片中的文字我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数机器人都没法读取的图片,验证码 (CAPTCHA)就出现了将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition, OCR)下载安装...原创 2019-10-31 19:20:08 · 381 阅读 · 0 评论 -
【python】urllib和urllib3,requests 简要概括---笔记
''' urllib和urllib3,requests url: 协议://存放资源的地址(域名)/具体的资源 https://bj.lianjia.com/zufang/dghfjhsjdf648.html urllib.request 用来发出请求 urllib.parse urllib.request.urlopen(str) --->re...原创 2019-08-12 19:08:31 · 1168 阅读 · 0 评论 -
Python3中urlopen()详解
一. 简介urllib.request.urlopen()函数用于实现对目标url的访问。函数原型如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) url: 需要打开的网址data:Post提交的数...原创 2019-08-15 22:03:45 · 66291 阅读 · 2 评论 -
【urllib】url编码问题简述
对url编解码总结需要用到urllib库中的parse模块import urllib.parse# Python3 url编码print(urllib.parse.quote("天天"))# Python3 url解码print(urllib.parse.unquote("%E5%A4%E5%A4%"))urlparse()# urllib.parse.urlpar...原创 2019-12-18 22:24:13 · 243 阅读 · 0 评论 -
Settings【学习笔记05】
SettingsScrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。比如 设置Json Pipeliine、LOG_LEVEL等。参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics...原创 2019-05-10 21:15:15 · 175 阅读 · 0 评论 -
Downloader Middlewares反反爬虫【学习笔记04】
反反爬虫相关机制Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may someti...原创 2019-05-10 21:14:27 · 309 阅读 · 0 评论 -
Request/Response【学习笔记03】
RequestRequest 部分源码:# 部分代码class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8...原创 2019-05-10 21:12:28 · 330 阅读 · 0 评论 -
scrapy startproject【学习笔记02】
入门案例学习目标创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据)一. 新建项目(scrapy startproject)在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令:scrapy sta...原创 2019-05-10 21:11:37 · 5136 阅读 · 0 评论 -
Scrapy 框架【学习笔记01】
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用...原创 2019-05-10 21:04:24 · 247 阅读 · 0 评论 -
爬虫的复习手册
爬虫的概念 模拟浏览器发送请求,获取响应 爬虫的流程 url---》发送请求,获取响应---》提取数据---》保存 发送请求,获取响应---》提取url(下一页,详情页)重新请求 爬虫要根据当前url地址对应的响应为准 爬虫只会请求当前这个url,但是不是请求js, 浏览器拿到的内容,我们在浏览器中看到的内容是elements里面的内容 el...原创 2019-05-06 23:50:51 · 520 阅读 · 0 评论