爬虫-python
MeteorMan99
一万年太久,只争朝夕
与君共勉之!
展开
-
Python入门之requests库的安装与简单使用实例
现在python爬虫刚开始起步,首先进行了requests库的学习。一.requests库的安装在windows下使用CMD以管理员身份运行,使用命令:pip install requests就可进行安装。 除上面的方法外,还有第2中方法: 由于在国内使用 pip 或者 easy_install 安装时经常会撞墙,下面着重介绍另外一种安装方法。 1. 下载requests 打开这个原创 2017-05-10 21:54:32 · 1570 阅读 · 0 评论 -
爬取中国大学排名
此处所写的爬虫是基于requests+bs4库实现的,通过给定一个固定URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html,获取其中的排名、学校名称、总分等三项信息,该URL指向的页面如下所示:代码实现如下所示:import requestsfrom bs4 import BeautifulSoupimport bs4def getH原创 2017-05-11 22:10:24 · 590 阅读 · 0 评论 -
Python爬虫之Beautiful Soup库的安装与使用
一.Beautiful Soup库的安装在windows下以管理员身份运行CMD命令行,输入: pip install beautifulsoup4二.bs4库的简单使用打开IDEL,在其中编写如下代码:#从bs4库中引用BeautifulSoup类from bs4 import BeautifulSoupimport requestsr = requests.get("http://原创 2017-05-11 22:22:35 · 821 阅读 · 0 评论 -
爬虫之广度优先&深度优先
广度优先算法介绍 整个的广度优先爬虫过程就是从一系列的种子节点开始,把这些网页中的”子节点”(也就是超链接)提取出来,放入队列中依次进行抓取。被处理过的链接需要放 入一张表(通常称为Visited表)中。每次新处理一个链接之前,需要查看这个链接是否已经存在于Visited表中。如果存在,证明链接已经处理过, 跳过,不做处理,否则进行下一步处理。 初始的URL地址是爬虫系统中提供的种子URL(一般原创 2017-05-30 17:02:31 · 7150 阅读 · 0 评论 -
MAC系统下基于Python3版本安装Scrapy
输入 pip install scrapy 执行 scrapy 安装?12345678910111213141516171819202122232425原创 2017-12-02 14:32:56 · 785 阅读 · 0 评论 -
MAC下安装scrapy
安装过程中会出现各种奇葩的错误,其实按照下面的方法就可以解决解决方法:不要尝试各种网上奇葩的方法,因为基本都不会有用的,真正的原因在 xcode command tools 出现问题,所以只要运行以下指令,呼出 xcode command tools 的安装界面,下载10来分钟,重新运行 scrapy 的安装就好了。xcode-select --install原创 2018-01-21 19:43:10 · 416 阅读 · 0 评论