- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 爬虫实践---Scrapy-豆瓣电影影评&深度爬取
Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。每个link e
2017-08-14 13:43:55 2024
原创 爬虫实践---Scrapy-爬取慕课网热门课程
访问的网站是:http://www.imooc.com/course/list?sort=pop首先我们创建一个Scrapy项目$ scrapy startproject mooc_subjectsNew Scrapy project 'mooc_subjects', using template directory '/home/pit-yk/anaconda3
2017-08-12 16:49:26 3356
原创 爬虫实践---正方教务系统爬取历年成绩
打开学校教务处官网,发现官网的地址其实是http://222.24.19.201/default2.aspx这次的爬虫既有账号密码登录,也有验证码和登录角色选择,有点难度了,搞了两天才搞定,看来还是才疏学浅了,通过这个博客将知识点已经坑点等方面进行总结,也是一个学习的过程。第一步,打开F12中的下面界面。通过登录一个错误账号,我们可以发现,Request URL:h
2017-08-10 13:34:17 3858 2
原创 爬虫实践---电影排行榜
哈哈!经过几天的学习,已经可以自己独立地慢慢的来写”蜘蛛侠“了,加油!电影网站:http://dianying.2345.com/top/首先对于网站进行浏览,查看一下网页大概信息。对于大体框架来看,电影有元素---海报,电影名称,上映时间,主演,故事简介。观察发现,电影排行榜在class=“picList clearfix"下进行展开的,每一个电影有一个li构成。
2017-08-03 16:32:12 1613
原创 爬虫实践---抓取小说网站
电子书网站:http://www.qu.la/paihangbang/ 对网页进行分析可知, 玄幻奇幻排行 武侠仙侠排行 历史军事排行
2017-08-03 15:08:57 9839
原创 爬虫实践---抓取百度贴吧
贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 通过对贴吧URl地址进行分析,“utf-8”是编码格式,支持中文。当我们点击下一页时,url变为:http://tieba.baidu.com/f?kw=%E7%94%9F%E6%
2017-08-01 15:26:14 2131
原创 爬虫---正则表达式:re库
从’通配符‘到正则表达式玩linux的同学在bash里一定经常用下面这一段代码:rm -rf /*.txt这里其实就是一个非常简单的删除当前目录下所有txt文件的命令, ’*’号其实就一个 ‘通配符’。表示任何形式的数据。 从这里我们就可以引出正则表达式的概念:正则表达式是用来简洁表达一组字符串的表达式,或者你可以将它理解为高级版的 通配符 表达式举个例子:impo
2017-08-01 13:00:19 1207
原创 爬虫---BeautifulSoup库的解析器
bs4库之所以能快速的定位我们想要的元素,是因为他能够用一种方式将html文件解析了一遍 ,不同的解析器有不同的效果。网络爬虫的最终目的就是过滤选取网络信息,最重要的部分可以说是解析器。安装解析器$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml使用lxml解析器来解释网页
2017-08-01 11:27:20 1479
原创 爬虫---Beautiful Soup库
Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。官方文档安装方式:$ pip install beautifulsoup4继续上一节中的pip list查看是否安装成功。简单使用:下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简
2017-08-01 10:44:49 879
原创 爬虫---requests库
requests库本质上就是模拟了我们用浏览器打开一个网页,发起请求是的动作。它能够迅速的把请求的html源文件保存到本地。$ pip install requests简单又粗暴,可以使用一下语句查看安装情况:$ pip list密密麻麻中发现了它,requests (2.14.2)接下来,使用requests进行一个简单的操作,访问百度的index页面,并将其源码抓取
2017-08-01 10:14:25 811
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人