Python爬虫
山阴少年
这个作者很懒,什么都没留下…
展开
-
Python爬虫之记录一次下载验证码的尝试
好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题。 一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循。在此,给出本爬虫的相关记录。 注意,文章和代码中均不会给出相关的真实网站的信息,避免不道德的行为。 首先,让我们来看一看该验证码的页面,如下:如果我们尝试着查看该验证码加载时的源代码,会发现源码如...原创 2020-04-30 21:16:25 · 352 阅读 · 0 评论 -
Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍 本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容。 为了知道POST方法所需要传递的HTTP请求头部和请求体,我们可以使用Fiddler来进行抓包,抓取上网过程中HTTP请求中的POST方法。为了验证Fiddler抓取到的POST请求,可以使用Postman进行测试验证。在P...原创 2018-07-01 21:46:32 · 3066 阅读 · 1 评论 -
Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面
鉴于现阶段国内的搜索引擎还用不上Google, 笔者会寻求Bing搜索来代替。在使用Bing的过程中,笔者发现Bing的背景图片真乃良心之作,十分赏心悦目,因此,笔者的脑海中萌生了一个念头:能否自己做个爬虫,可以提取Bing搜索的背景图片并设置为Windows的电脑桌面呢?Bing搜索的页面如下: 于是在一个风雨交加的下午,笔者开始了自己的探索之旅。当然,过程是曲折的,但笔者尝试着能...原创 2018-09-02 15:47:30 · 1013 阅读 · 0 评论 -
利用aiohttp实现异步爬虫
asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块。关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架——aiohttp,它可以帮助我们异步地实现HTTP请求,从而使得我们的程序效率大大提高。 本文将会介绍aiohttp在爬虫中的一个简单应用。 我们的项目来源于:Scrapy爬虫(5)爬取当当网...原创 2018-09-13 17:22:32 · 10260 阅读 · 6 评论 -
周庄!周庄!
本次爬虫项目将会爬取携程网中关于“周庄古镇”的点评,然后对这些评论进行中文分词及预处理,形成一张关于“周庄古镇”的词云图,得到可视化的分析结果。项目介绍 马上要到中秋啦,正好这几天在公司不太忙,想着中秋假期即将去周庄旅游,于是,笔者心血来潮地想到,能不能利用爬虫做一些关于周庄的分析呢?琢磨许久,笔者终于有了思路,因此,本次爬虫的大致思路是这样的:获取数据: 利用爬虫爬取携程网中关于周...原创 2018-09-20 15:15:00 · 704 阅读 · 0 评论 -
Python爬虫之诗歌接龙
介绍 本文将展示如何利用Python爬虫来实现诗歌接龙。 该项目的思路如下:利用爬虫爬取诗歌,制作诗歌语料库;将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句,并将字典保存为pickle文件;读取pickle文件,编写程序,以exe文件形式运行该程序。 该项目实现的诗歌接龙,规则为下一句的首字与上一句的尾字的拼音(包括声调)一致。下面将分...原创 2018-10-18 21:04:36 · 626 阅读 · 0 评论 -
Python爬虫的N种姿势
问题的由来 前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0): 我们的需求为爬取红色框框内的名人(有500条记录,图片只展...原创 2018-10-16 18:12:18 · 34388 阅读 · 8 评论 -
为你的爬虫提提速?
项目介绍 本文将展示如何利用Pyhton中的异步模块来提高爬虫的效率。 我们需要爬取的目标为:融360网站上的理财产品信息(https://www.rong360.com/licai-bank/list/p1),页面如下:我们需要爬取86394条理财产品的信息,每页10条,也就是8640个页面。 在文章Python爬虫(16)利用Scrapy爬取银行理财产品信息(共12多万条)中,...原创 2018-10-17 15:52:34 · 1200 阅读 · 1 评论 -
Python爬虫之使用celery加速爬虫
celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度。关于celery的更多介绍及例子,笔者可以参考文章Python之celery的简介与使用。 本文将介绍如何使用celery来加速爬虫。 本文爬虫的例子来自文章:Python爬虫的N种姿势。这里不再过多介绍,我们的项目结构如下:其中,app_test.py为主程序,其代码如下:from cel...原创 2019-02-02 15:39:44 · 2753 阅读 · 3 评论 -
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍 本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使用多线程来完成,通过两者的对比,显示出多线程在爬虫项目中的巨大优势。本文所使用的多线程用到了concurrent.futures模块,该模块是Python中最广为使用的并发库,它可以非...原创 2018-06-19 20:35:24 · 2724 阅读 · 0 评论 -
Python爬虫之多线程下载程序类电子书
网站http://www.allitebooks.com/提供了大量免费的编程方面的电子书,其页面如下: 那么我们是否可以通过Python来制作爬虫帮助我们自动下载这些电子书呢?答案是yes. 笔者在空闲时间写了一个爬虫,主要利用urllib.request.urlretrieve()函数来下载这些电子书,其Python代码如下:# -*- coding:utf-8...原创 2018-06-06 14:21:41 · 1364 阅读 · 0 评论 -
Python爬虫之自制英汉字典
最近在微信公众号中看到有人用Python做了一个爬虫,可以将输入的英语单词翻译成中文,或者把中文词语翻译成英语单词。笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩~~ 首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网站帮助我们做这件事情。于是,我们选定有道词典,网址为: http://dict.youdao.com/ 。在该网页中我们输入单词nice,就会出来这个...原创 2018-05-24 13:56:26 · 8339 阅读 · 4 评论 -
利用Selenium控制网页内嵌滚动条
利用Selenium控制网页内嵌滚动条原创 2017-08-12 09:46:37 · 9088 阅读 · 8 评论 -
Python爬虫——自制简单搜索引擎GUI版
Python爬虫 自制简单搜索引擎的GUI版本原创 2017-08-19 11:09:47 · 4242 阅读 · 1 评论 -
Python爬虫——利用新浪微盘下载周杰伦的歌曲(共190首)
Python爬虫 利用新浪微盘下载周杰伦的歌曲原创 2017-08-12 12:15:04 · 11133 阅读 · 0 评论 -
Python爬虫——百度+新浪微盘下载歌曲
Python爬虫——百度+新浪微盘下载歌曲原创 2017-08-13 10:07:41 · 3183 阅读 · 0 评论 -
Python爬虫——漫画下载
Python爬虫——动漫下载原创 2017-08-25 23:13:32 · 4357 阅读 · 1 评论 -
Python爬虫——利用PhantomJS下载动态加载图片
Python爬虫——利用PhantomJS下载动态加载图片原创 2017-08-23 22:00:34 · 3805 阅读 · 0 评论 -
Python爬虫——解决urlretrieve下载不完整问题且避免用时过长
Python爬虫——解决urlretrieve下载不完整问题且避免用时过长原创 2017-08-23 23:30:37 · 18245 阅读 · 8 评论 -
Python爬虫——自制简单的搜索引擎
自制简单的搜索引擎原创 2017-08-18 21:32:29 · 25451 阅读 · 6 评论 -
Python爬虫之40行代码爬取金庸所有武侠小说
Python爬虫之40行代码爬取金庸所有武侠小说原创 2017-12-18 17:40:01 · 2188 阅读 · 0 评论 -
Python爬虫——爬取中国高校排名前100名并写入MySQL
Python爬虫——爬取中国高校排名前100名并写入MySQL原创 2017-08-18 21:10:57 · 3599 阅读 · 0 评论