2017年08月_锅巴QAQ

原创爬虫实践---今日头条<街拍>图片

http://maoyan.com/board/4?offset=0

2017-08-15 08:51:00 1041

原创爬虫实践---Scrapy-豆瓣电影影评&深度爬取

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡每个link e

2017-08-14 13:43:55 2024

原创爬虫实践---Scrapy-爬取慕课网热门课程

访问的网站是：http://www.imooc.com/course/list?sort=pop首先我们创建一个Scrapy项目$ scrapy startproject mooc_subjectsNew Scrapy project 'mooc_subjects', using template directory '/home/pit-yk/anaconda3

2017-08-12 16:49:26 3356

原创爬虫实践---正方教务系统爬取历年成绩

打开学校教务处官网，发现官网的地址其实是http://222.24.19.201/default2.aspx这次的爬虫既有账号密码登录，也有验证码和登录角色选择，有点难度了，搞了两天才搞定，看来还是才疏学浅了，通过这个博客将知识点已经坑点等方面进行总结，也是一个学习的过程。第一步，打开F12中的下面界面。通过登录一个错误账号，我们可以发现，Request URL:h

2017-08-10 13:34:17 3858 2

原创爬虫实践---电影排行榜

哈哈！经过几天的学习，已经可以自己独立地慢慢的来写”蜘蛛侠“了，加油！电影网站：http://dianying.2345.com/top/首先对于网站进行浏览，查看一下网页大概信息。对于大体框架来看，电影有元素---海报，电影名称，上映时间，主演，故事简介。观察发现，电影排行榜在class=“picList clearfix"下进行展开的，每一个电影有一个li构成。

2017-08-03 16:32:12 1613

原创爬虫实践---抓取小说网站

电子书网站：http://www.qu.la/paihangbang/ 对网页进行分析可知，玄幻奇幻排行武侠仙侠排行历史军事排行

2017-08-03 15:08:57 9839

原创爬虫实践---抓取百度贴吧

贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 通过对贴吧URl地址进行分析，“utf-8”是编码格式，支持中文。当我们点击下一页时，url变为：http://tieba.baidu.com/f?kw=%E7%94%9F%E6%

2017-08-01 15:26:14 2131

原创爬虫---正则表达式:re库

从’通配符‘到正则表达式玩linux的同学在bash里一定经常用下面这一段代码：rm -rf /*.txt这里其实就是一个非常简单的删除当前目录下所有txt文件的命令， ’*’号其实就一个 ‘通配符’。表示任何形式的数据。从这里我们就可以引出正则表达式的概念：正则表达式是用来简洁表达一组字符串的表达式,或者你可以将它理解为高级版的通配符表达式举个例子：impo

2017-08-01 13:00:19 1207

原创爬虫---BeautifulSoup库的解析器

bs4库之所以能快速的定位我们想要的元素，是因为他能够用一种方式将html文件解析了一遍，不同的解析器有不同的效果。网络爬虫的最终目的就是过滤选取网络信息，最重要的部分可以说是解析器。安装解析器$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml使用lxml解析器来解释网页

2017-08-01 11:27:20 1479

原创爬虫---Beautiful Soup库

Beautiful Soup 库一般被称为bs4库，支持Python3，是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。官方文档安装方式：$ pip install beautifulsoup4继续上一节中的pip list查看是否安装成功。简单使用：下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容(以后内容中简

2017-08-01 10:44:49 879

原创爬虫---requests库

requests库本质上就是模拟了我们用浏览器打开一个网页，发起请求是的动作。它能够迅速的把请求的html源文件保存到本地。$ pip install requests简单又粗暴，可以使用一下语句查看安装情况：$ pip list密密麻麻中发现了它，requests (2.14.2)接下来，使用requests进行一个简单的操作，访问百度的index页面，并将其源码抓取

2017-08-01 10:14:25 811

锅巴