自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

锅巴

一生只做一件事

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫实践---今日头条<街拍>图片

http://maoyan.com/board/4?offset=0

2017-08-15 08:51:00 1041

原创 爬虫实践---Scrapy-豆瓣电影影评&深度爬取

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。每个link e

2017-08-14 13:43:55 2024

原创 爬虫实践---Scrapy-爬取慕课网热门课程

访问的网站是:http://www.imooc.com/course/list?sort=pop首先我们创建一个Scrapy项目$ scrapy startproject mooc_subjectsNew Scrapy project 'mooc_subjects', using template directory '/home/pit-yk/anaconda3

2017-08-12 16:49:26 3356

原创 爬虫实践---正方教务系统爬取历年成绩

打开学校教务处官网,发现官网的地址其实是http://222.24.19.201/default2.aspx这次的爬虫既有账号密码登录,也有验证码和登录角色选择,有点难度了,搞了两天才搞定,看来还是才疏学浅了,通过这个博客将知识点已经坑点等方面进行总结,也是一个学习的过程。第一步,打开F12中的下面界面。通过登录一个错误账号,我们可以发现,Request URL:h

2017-08-10 13:34:17 3858 2

原创 爬虫实践---电影排行榜

哈哈!经过几天的学习,已经可以自己独立地慢慢的来写”蜘蛛侠“了,加油!电影网站:http://dianying.2345.com/top/首先对于网站进行浏览,查看一下网页大概信息。对于大体框架来看,电影有元素---海报,电影名称,上映时间,主演,故事简介。观察发现,电影排行榜在class=“picList clearfix"下进行展开的,每一个电影有一个li构成。

2017-08-03 16:32:12 1613

原创 爬虫实践---抓取小说网站

电子书网站:http://www.qu.la/paihangbang/ 对网页进行分析可知,                             玄幻奇幻排行                            武侠仙侠排行                            历史军事排行

2017-08-03 15:08:57 9839

原创 爬虫实践---抓取百度贴吧

贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 通过对贴吧URl地址进行分析,“utf-8”是编码格式,支持中文。当我们点击下一页时,url变为:http://tieba.baidu.com/f?kw=%E7%94%9F%E6%

2017-08-01 15:26:14 2131

原创 爬虫---正则表达式:re库

从’通配符‘到正则表达式玩linux的同学在bash里一定经常用下面这一段代码:rm -rf /*.txt这里其实就是一个非常简单的删除当前目录下所有txt文件的命令, ’*’号其实就一个 ‘通配符’。表示任何形式的数据。 从这里我们就可以引出正则表达式的概念:正则表达式是用来简洁表达一组字符串的表达式,或者你可以将它理解为高级版的 通配符 表达式举个例子:impo

2017-08-01 13:00:19 1207

原创 爬虫---BeautifulSoup库的解析器

bs4库之所以能快速的定位我们想要的元素,是因为他能够用一种方式将html文件解析了一遍 ,不同的解析器有不同的效果。网络爬虫的最终目的就是过滤选取网络信息,最重要的部分可以说是解析器。安装解析器$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml使用lxml解析器来解释网页

2017-08-01 11:27:20 1479

原创 爬虫---Beautiful Soup库

Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。官方文档安装方式:$ pip install beautifulsoup4继续上一节中的pip list查看是否安装成功。简单使用:下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简

2017-08-01 10:44:49 879

原创 爬虫---requests库

requests库本质上就是模拟了我们用浏览器打开一个网页,发起请求是的动作。它能够迅速的把请求的html源文件保存到本地。$ pip install requests简单又粗暴,可以使用一下语句查看安装情况:$ pip list密密麻麻中发现了它,requests (2.14.2)接下来,使用requests进行一个简单的操作,访问百度的index页面,并将其源码抓取

2017-08-01 10:14:25 811

chromedriver_linux64.zip

chromedrive

2017-08-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除