爬虫学习
why1673
这个作者很懒,什么都没留下…
展开
-
爬虫入门之爬虫概述与urllib库(一)
1 爬虫概述 (1)互联网爬虫 一个程序,根据Url进行爬取网页,获取有用信息 (2)核心任务 爬取网页 解析数据 难点 :爬虫和反爬虫之间的博弈 (3)爬虫语言 php 多进程和多线程支持不好 java 目前java爬虫需求岗位旺盛,但代码臃肿,重构成本高,而爬虫需要经常修改,所以不好用 C\C++ 学习成本比较高,性能和效率高,停留在研究层面,市场需求...原创 2018-06-20 20:02:26 · 321 阅读 · 0 评论 -
爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性。(推荐安装IPython) 1 启...原创 2018-07-06 09:09:54 · 279 阅读 · 0 评论 -
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完...原创 2018-07-05 09:26:16 · 424 阅读 · 0 评论 -
爬虫入门之jsonPath PhantomJS与 selenium详解(六)
1 jsonPath数据格式 pip安装: pip install jsonpath 用来解析json格式的字符串,类似于xpath (1) json对象的转换 json.loads() json.dumps() json.load() json.dump() #直接读取json对象 json_obj = json.load(open('books.json','r',enco...原创 2018-06-28 20:57:57 · 1056 阅读 · 0 评论 -
爬虫入门之爬取策略 XPath与bs4实现(五)
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略: 1 深度优先遍历策略: 深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。我们以下面的...原创 2018-06-27 21:09:27 · 424 阅读 · 0 评论 -
爬虫入门之反反爬虫机制cookie UA与中间件(十三)
1. 通常防止爬虫被反主要有以下几个策略 (1)动态设置User-Agent(随机切换User-Agent,模拟不同的浏览器) 方法1: 修改setting.py中的User-Agent # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = 'Hell...原创 2018-07-09 09:24:33 · 2046 阅读 · 0 评论 -
爬虫入门之Requests模块学习(四)
1 Requests模块解析 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用 Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。 requests 的底层实现其实就是 urllib3 R...原创 2018-06-27 09:35:22 · 343 阅读 · 0 评论 -
爬虫入门之线程进程协程抓取方法(八)
1 多线程抓取 import lxml from lxml import etree import requests import threading import time rlock = threading.RLock() # 递归锁 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) A...原创 2018-07-02 10:19:53 · 427 阅读 · 0 评论 -
爬虫入门之Scrapy框架实战(新浪百科豆瓣)(十二)
一 新浪新闻爬取 1 爬取新浪新闻(全站爬取) 项目搭建与开启 scrapy startproject sina cd sina scrapy genspider mysina http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml 2 项目setting配置 ROBOTSTXT_OBEY = False IT...原创 2018-07-08 16:12:44 · 395 阅读 · 0 评论 -
爬虫入门之绘图matplotlib与词云(七)
1 绘制条形图 import matplotlib # 数据可视化 from matplotlib import pyplot as plt # 配置字体 matplotlib.rcParams["font.sans-serif"] = ["simhei"] # 黑体 matplotlib.rcParams["font.family"] = "sans-serif" ''' left, x...原创 2018-06-30 10:15:12 · 3799 阅读 · 0 评论 -
爬虫入门之handler与opener(三)
1 自定义opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的模块构建好的opener 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: (1)使用相关的 Handler处理器 来创建特定功能的处理器对象; (2)然后通...原创 2018-06-25 19:24:23 · 2117 阅读 · 0 评论 -
爬虫入门之urllib库详解(二)
1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.request导致的异常 urllib.parse用于解析URLS urllib.robotparser用于解析robots.txt文件(网络蜘蛛) 2 urllib读取网页的三种方式 urlopen直接打开 urlo...原创 2018-06-22 14:33:43 · 438 阅读 · 0 评论 -
scrapy的安装
转载:http://blog.csdn.net/c406495762/article/details/60156205 一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在,Scrapy已经推出了曾承诺过...转载 2018-06-21 11:10:23 · 204 阅读 · 0 评论 -
爬虫之requests详解
 简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。 一、安装  pip快速安装 ?1pip install requests     二、使用   1、先上一串代码 ?123456...转载 2018-06-21 10:18:36 · 2003 阅读 · 0 评论 -
爬虫入门之Scrapy框架基础LinkExtractors(十一)
1 parse()方法的工作机制: 1. 因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果,并判断该结果是一个什么样的类型; 2. 如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。 3. scrapy取到第一部分的request不会立马就去发送这个req...原创 2018-07-07 09:08:41 · 893 阅读 · 0 评论