爬虫
carson0408
热衷于编程,喜欢研究算法,挑战难题,享受AC的过程,希望自己能够不断进步,不断成长。
展开
-
爬虫入门实践之使用Urllib爬取网页
在这个信息爆炸的时代,数据筛选和大数据分析是很重要的过程,而这一过程需要数据源,爬虫则可以获取大量数据源。本文则主要对爬取网页的过程做一个详细的介绍,有助于对爬虫知识的入门。1.使用Urllib爬取网页 Urllib库是Python中用于操作URL、爬虫且具有强大功能的库。该库在Python2.x和Python3.x有一定的区别,本文使用的是Python2.x...原创 2019-05-04 22:20:30 · 2451 阅读 · 0 评论 -
Scrapy项目之自动爬取网页信息
前文已经介绍了利用Scrapy框架与手写爬虫,比较了Scrapy框架的优势。前面介绍的scrapy框架爬取是针对一个网页的爬取,而本文介绍的是实现多个网页的自动爬取,本文将以爬取虎扑湿乎乎论坛帖子信息为例,讲解自动爬取网页信息的爬虫。1.分析页面 打开https://bbs.hupu.com/vote页面,该页面就是开始爬虫页面,点击进去,页面如下图所示:...原创 2019-05-11 20:32:31 · 5052 阅读 · 1 评论 -
Scrapy爬虫项目中避免被禁止爬虫的几种方法
现在网站的安全性越来越高,并会通过分析用户的行为以及相关信息来判断该用户是否是自动爬虫并会将爬虫行为禁止。不同的网站判断依据也不同,有的根据ip、有的根据用户信息、有的根据访问频率等。因此,本文将具有针对性地介绍几种方法应对不同的情况。1.禁止Cookie 有的网站会通过用户的Cookie信息堆用户进行识别和分析,如果将本地的Cookie信息让对方网站无法识别...原创 2019-05-10 22:35:17 · 2491 阅读 · 0 评论 -
Scrapy框架的了解与使用
Scrapy框架是比较常用且成熟的python爬虫框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。前面介绍了手写爬虫的例子,但是每个爬虫都这么写,效率不高,同时造成代码的冗余。而使用爬虫框架可以使代码更加简洁,大大提升效率。本文主要了解一下Scrapy整体的架构、工作流程、常用命令以及创建Scrapy项目。1.Scrapy架构 如上图所示,s...原创 2019-05-10 20:20:20 · 750 阅读 · 0 评论 -
爬虫入门实践之多线程爬虫
有的爬重只需要单线程就可以完成,而有的爬虫可以拆分成多线程实现,能够提高爬虫效率。比如爬虫入门实践之爬取虎扑论坛帖子一文中,介绍使用的是用单线程实现的,首先在首页找出所有的url,然后遍历url,找出相关信息。其实,仔细分析,可以发现,该例子可以使用多线程来实现,比如一个线程用于获取url,一个线程根据已有的url来爬取相关信息,这样一来,总的等待时间更短了。因此,本文针对改写该例...原创 2019-05-07 22:30:18 · 2255 阅读 · 0 评论 -
爬虫常见错误及解决方法
在爬虫或者安装框架过程中,会碰到一些报错或者问题,本文主要对这些问题进行收集整理。1.ERROR: No matching distribution found for win32api解决方法:折是缺少win32api模块,这里需要安装pypiwin32库,安装命令:pip install pypiwin322.pycharm安装库时出现AttributeErr...原创 2019-05-10 09:29:40 · 4938 阅读 · 0 评论 -
爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧、论坛等。博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子。本文主要通过对虎扑某一版的帖子进行统一收集,并总结这些帖子的相关信息。1.选择需要操作的版块 本文主要针对NBA版块进行信息的批量收集,https://bbs.hupu.com/all...原创 2019-05-06 21:09:49 · 5369 阅读 · 0 评论 -
爬虫入门实践之图片爬虫
现在电商平台网站是大家访问最多的网站之一,比如看重一个商品,想到电商网站下载相应的大量图片,如果采用一张张下载则会耗费很多时间。这里可以通过爬虫程序对该商品的图片进行自动下载。本文以在京东上搜索面霜为例子进行讲解。1.了解待爬虫网页 https://list.jd.com/list.html?cat=1316,1381,1391点开该网址,即可进入面霜页面,里...原创 2019-05-06 11:02:52 · 4131 阅读 · 0 评论 -
正则表达式及Python中常见的相关函数
在日常生活中,如果批量进行筛选或者操作某特定格式的信息,一个个进行操作工作效率会特别低,但使用正则表达式则可以大大提升工作效率。正则表达式就是描述字符串排列的一套规则,而这个规则是根据实际需求进行定义的。1.正则表达式相关知识1.常见打印字符与通用字符 符号 含义 ...原创 2019-05-05 20:16:39 · 316 阅读 · 0 评论 -
Scrapy爬取网页信息并存储到MySQL
Scrapy项目之自动爬取网页信息一文介绍了利用Scrapy框架可以方便地进行网页信息的自动爬取。本文则是基于前文内容,将前文所述爬取的信息存储到MySQL中,使网页信息结构化。1.创建爬虫项目crawltosql2.编写items.pyimport scrapyclass CrawltosqlItem(scrapy.Item): # define ...原创 2019-05-30 17:48:06 · 1052 阅读 · 1 评论