2017年08月_淮左青衣

原创 python网络爬虫与信息采取之下载存储数据（一）-----下载储存媒体文件模板

还在为一张张的点下载图片而烦恼吗？请用一个程序员的思路来解决这个问题，下面就是可以节省你大量时间的代码；存储媒体文件有两种方式：一是只获取URL链接；二是直接把源文件下载下来下面这个就是直接把源文件下载下来的实例：其中，urlretrieve()函数用于下载文件代码如下：import osfrom urllib.request import urlretrievefr

2017-08-15 10:57:21 601

原创 python网络爬虫与信息采取之解析网页实例---oJ期末成绩排名

本文用到的网址是山东科技大学的oj上的期末成绩排名：http://219.218.128.149/JudgeOnline/contestrank.php?cid=2756目的:打印出排名，学号，姓名，成绩；首先，打开网页的源代码，如下：你会发现，很混乱，没有层次感；不用急，告诉你一个小技巧，先使用 soup.prettify（）函数进行格式化一下，得到如下结果：这

2017-08-13 09:15:03 914

原创 python网络爬虫与信息采取之解析网页（三）---- BeautifulSoup库的导航树实例

上篇我们讲到了通过标签的名称和属性来查找标签的findAll（),本篇将讲解如何通过标签在文档中的位置进行查找------导航树一篇文章，可以将其标签分为子标签，父标签和兄弟标签。而导航树的功能就是先在文档中找到一个位置，根据网页源代码的架构，在该位置上进行前进（子标签），后退（父标签）或平移（兄弟标签），从而遍历全部标签，获取全部内容。具体标签内容详见http://blog.csdn.n

2017-08-12 15:27:43 1217

原创 python网络爬虫与信息采取之解析网页（二）---BeautifulSoup库的find()和find_all()

本文介绍的是一个用标签的属性和内容来获取内容的功能find() 和 find_all()函数可以说是两个函数，也可以说是一个函数。为什么呢？其实这两个函数的参数基本上一样，让他们产生区别的就是li

2017-08-12 13:47:44 6965

原创 python 网络爬虫与信息采取之异常处理

本篇文章转自Ryan Mitchell 写的python：网络数据采集网络是十分复杂的。网页数据格式不友好，网站服务器宕机，目标数据的标签找不到，都是很麻烦的事情。网络数据采集最痛苦的遭遇之一，就是爬虫运行的时候你洗洗睡了，梦想着明天一早数据就都会采集好放在数据库里，结果第二天醒来，你看到的却是一个因某种数据格式异常导致运行错误的爬虫，在前一天当你不再盯着屏幕去睡觉之后，没过一会儿爬虫就不再运行

2017-08-12 10:36:44 2890

原创 python 网络爬虫与信息采取之解析网页（一）--BeautifulSoup库

写一个爬虫，如果知识不分好坏，全部都爬取下来，其混乱程度，你会发现还不如自己一个个的在网上百度方便。因此，良好的解析网页才是判定一个爬虫好坏的重要标准。在这里，我将为你介绍一个功能强大的网页信息解析库----BeautifulSoupBeautifulSoup库是一个专注于解析网页信息的强大的第三方库，他提供了很多功能，让你可以根据网页中的标签，属性或者内容进行精确的查找下面，我先

2017-08-12 09:53:10 918

原创 python资源下载与各种库的安装

俗话说的好，“磨刀不误砍柴工”。要想学好网络爬虫，一个良好的环境配置是离不开的。下面，我将介绍一下python的安装以及后面将用到的各种库的安装一.python的下载与安装python分为2.x版本和3.x版本，基本上差不多，只是有一些差别，今后的文章中我都是用3.x版本，具体操作步骤如下：1.下载地址：https://www.python.org/downloads/windows/

2017-08-11 10:09:45 676

原创 python 3.6.0 scrapy框架安装方法及疑难解决

一.最简单的方法1.打开命令行-------打开运行（win+R)，输入cmd，回车2.输入：pip install scrapy[plain] view plain copypip install scrapy 3.输入：scrapy -h 进行检测，如果没有出现“scrapy”不是内部或外部命令”，那恭喜你，你安装成

2017-08-07 11:21:07 1972 2

原创 python爬虫时 AttributeError: 'NoneType' object has no attribute 'children'错误提示

这段时间突然对网络爬虫比较感兴趣，于是入手了一下。今天看到一个大学排名的网站，想将网页上的排名信息爬取下来。代码如下： for tr in soup.find('tbody').children: AttributeError: 'NoneType' object has no attribute 'children'

2017-08-05 21:22:32 39452 35

原创安装beautifulsoup库时遇到 ImportError: No module named bs4 错误的解决方法

调用beautifulsoup库时，运行后提示错误： ImportError: No module named bs4 ，意思就是没有找到bs4模块，所以解决方法就是将bs4安装上，具体步骤如下：1.下载bs4：下载地址如下：http://www.crummy.com/software/BeautifulSoup/bs4/download/4.3/beautifulsoup4-4.3.2

2017-08-04 14:27:33 20523 1

淮左青衣