但盼风雨来

微信公众号: Python爬虫与算法(微信号为:easy_web_scrape)

Python爬虫之使用celery加速爬虫

  celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度。关于celery的更多介绍及例子,笔者可以参考文章Python之celery的简介与使用。   本文将介绍如何使用celery来加速爬虫。   本文爬虫的例子来自文章:Python爬虫的N种姿势。这里不再...

2019-02-02 15:39:44

阅读数 387

评论数 1

Python爬虫之诗歌接龙

介绍   本文将展示如何利用Python爬虫来实现诗歌接龙。   该项目的思路如下: 利用爬虫爬取诗歌,制作诗歌语料库; 将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句,并将字典保存为pickle文件; 读取pickle文件,编写程序,以exe文件形式运行...

2018-10-18 21:04:36

阅读数 177

评论数 0

为你的爬虫提提速?

项目介绍   本文将展示如何利用Pyhton中的异步模块来提高爬虫的效率。   我们需要爬取的目标为:融360网站上的理财产品信息(https://www.rong360.com/licai-bank/list/p1),页面如下: 我们需要爬取86394条理财产品的信息,每页10条,也就是864...

2018-10-17 15:52:34

阅读数 252

评论数 0

Python爬虫的N种姿势

问题的由来   前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&...

2018-10-16 18:12:18

阅读数 3134

评论数 0

周庄!周庄!

  本次爬虫项目将会爬取携程网中关于“周庄古镇”的点评,然后对这些评论进行中文分词及预处理,形成一张关于“周庄古镇”的词云图,得到可视化的分析结果。 项目介绍   马上要到中秋啦,正好这几天在公司不太忙,想着中秋假期即将去周庄旅游,于是,笔者心血来潮地想到,能不能利用爬虫做一些关于周庄的分析呢?琢...

2018-09-20 15:15:00

阅读数 216

评论数 0

利用aiohttp实现异步爬虫

  asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块。关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架——aiohttp,它可以帮助我们异步地实现HTTP请求,从而使得我们的程序效率大大提高。   本文将...

2018-09-13 17:22:32

阅读数 1468

评论数 1

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面

  鉴于现阶段国内的搜索引擎还用不上Google, 笔者会寻求Bing搜索来代替。在使用Bing的过程中,笔者发现Bing的背景图片真乃良心之作,十分赏心悦目,因此,笔者的脑海中萌生了一个念头:能否自己做个爬虫,可以提取Bing搜索的背景图片并设置为Windows的电脑桌面呢?Bing搜索的页面如...

2018-09-02 15:47:30

阅读数 273

评论数 0

Python爬虫之足球小将动漫(图片)下载

  尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是我们国家足球队的水平一样,也许还不如我们国足呢。   足球小将(队长小翼、キャプテン翼)由日本著...

2018-07-26 22:37:03

阅读数 140

评论数 0

Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗

介绍   本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容。   为了知道POST方法所需要传递的HTTP请求头部和请求体,我们可以使用Fiddler来进行抓包,抓取上网过程中HTTP请求...

2018-07-01 21:46:32

阅读数 731

评论数 1

Python爬虫之多线程下载豆瓣Top250电影图片

爬虫项目介绍   本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示:   本次爬虫项目将分别不使用多线程和使用多线程来完成,通过两者的对比,显示出多线程在爬虫项目中的巨大优势。本文所使用的多...

2018-06-19 20:35:24

阅读数 377

评论数 0

Python爬虫之多线程下载程序类电子书

  网站http://www.allitebooks.com/提供了大量免费的编程方面的电子书,其页面如下:   那么我们是否可以通过Python来制作爬虫帮助我们自动下载这些电子书呢?答案是yes.   笔者在空闲时间写了一个爬虫,主要利用urllib.request.urlre...

2018-06-06 14:21:41

阅读数 491

评论数 0

Python爬虫之自制英汉字典

  最近在微信公众号中看到有人用Python做了一个爬虫,可以将输入的英语单词翻译成中文,或者把中文词语翻译成英语单词。笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩~~   首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网站帮助我们做这件事情。于是,我们选定有道词典,网...

2018-05-24 13:56:26

阅读数 1670

评论数 0

Python爬虫之40行代码爬取金庸所有武侠小说

Python爬虫之40行代码爬取金庸所有武侠小说

2017-12-18 17:40:01

阅读数 938

评论数 0

Python爬虫——漫画下载

Python爬虫——动漫下载

2017-08-25 23:13:32

阅读数 1216

评论数 0

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

2017-08-23 23:30:37

阅读数 7130

评论数 1

Python爬虫——利用PhantomJS下载动态加载图片

Python爬虫——利用PhantomJS下载动态加载图片

2017-08-23 22:00:34

阅读数 2319

评论数 0

Python爬虫——自制简单搜索引擎GUI版

Python爬虫 自制简单搜索引擎的GUI版本

2017-08-19 11:09:47

阅读数 1640

评论数 1

Python爬虫——自制简单的搜索引擎

自制简单的搜索引擎

2017-08-18 21:32:29

阅读数 8384

评论数 0

Python爬虫——爬取中国高校排名前100名并写入MySQL

Python爬虫——爬取中国高校排名前100名并写入MySQL

2017-08-18 21:10:57

阅读数 879

评论数 0

Python爬虫——百度+新浪微盘下载歌曲

Python爬虫——百度+新浪微盘下载歌曲

2017-08-13 10:07:41

阅读数 1562

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭