自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 第三只爬虫-----豆瓣影评

最近的原则就是把以前爬虫爬到一半出现各种bug,导致爬不下去的网站全部清理掉,第三只豆瓣爬虫来了,主要爬了豆瓣的热门影评内容,部分代码写的不是特别的简洁,现阶段主要是为了掌握各种方法,后期再进一步完善,希望有看到的小伙伴能够帮忙指正。目标:爬取豆瓣的热门影评(https://movie.douban.com/review/best/)主要爬取:影评标题、影片详情链接、影评人、影片名、评分、

2017-04-29 10:20:13 612

原创 第二只爬虫---百度贴吧

学习了一段时间,就想找些网站实战一下,最近几天尝试着去爬一下百度贴吧(代码写的还是不够精炼,可能存在这样或者那样的问题,希望大家看到可以指正出来,不胜感激)目标:爬取目标网站 回帖人ID,回帖人昵称,回帖内容和时间(网站:http://tieba.baidu.com/p/3522395718?pn=1)#-*-coding:utf8-*-import urllib.requestfro

2017-04-26 18:32:51 336

原创 《用python写网络爬虫》--网页抓取方法

目标:掌握三种网页抓取的方法:正则表达式、BeautifulSoup模块,lxml模块

2017-04-19 20:27:13 998

原创 《用python写网络爬虫》第一章

在python3 的基础上实现的,但是相对于作者的代码少了支持代理部分和避免爬虫陷阱部分,代码写入了自己写的注释,暂时的理解就是这样了,希望有看到的朋友可以指正一下,小白成长中。。。import urllib.requestimport urllib.errorimport reimport urllib.parsefrom urllib.parse import urljoinim

2017-04-08 08:34:13 381

原创 第一只爬虫---糗事百科

目标:(1)获取评论者及评论内容(2)将爬取到的数据保存到Excel中

2017-04-05 19:44:47 342

原创 python爬虫实战二之爬取百度贴吧帖子

目标:1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,分析一下地址http://表示资源传输使用http协议tieba.baidu.com 是百度

2017-03-31 14:01:28 2437 1

转载 python 爬虫利器之一Request库的用法

前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。引入首先我们引入一个小例子来感受一下import requestsr=requests.get('http://cuiqing

2017-03-31 08:39:57 1341

原创 python爬虫实战一之糗事百科

目标:(1)抓取糗事百科热门段子(2)过滤带有图片的段子(3)实现没按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数糗事百科是不需要登录的,所以也没必要用到cookie,另外糗事百科有的段子是附图的,把图片抓下来不利于显示,所以尝试过滤掉有图的段子1.确定URL并抓取页面代码首先确定好页面的url是:http://www.qiushibaike.com/8hr

2017-03-29 19:58:35 552 1

转载 python爬虫之正则表达式

1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致

2017-03-29 18:37:00 267

转载 python爬虫之cookie的使用

Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登陆之前,你想抓取某个页面内容是不允许的。那么我们可以利用urllib库保存我们登陆的cookie,然后抓取其他页面就达到目的了。1.Opener当你获取一个URL时,你使用一个opener。在前面,我们使用的都是默认的open

2017-03-29 15:24:24 638 1

转载 python爬虫之urlError异常处理

1.URLErrorURLError产生的原因:(1)网络无连接,即本机无法上网(2)连接不到特定的服务器(3)服务器不存在import urllib.requestimport urllib.errorfrom urllib.request import urlopenrequest=urllib.request.Request('http://www.xxxx

2017-03-29 14:27:23 8364

转载 python爬虫之urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers的属性。例如知乎:我们发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许多内容,这些内容也不是一次性就加载完成的,实质上是执行了好多请求,一般是首先请求HTML文件,然后加载JS,CSS等,经过多次请求之后,网

2017-03-29 11:07:12 410

转载 python爬虫之urllib库的使用

1.爬取百度的源码爬网页就是根据URL来获取它的网页信息,源码里面有HTML代码,加JS、CSS,其中最重要的部分在HTML代码中截取了一小段的运行结果2.分析代码首先从urllib.request库中导入urlopen方法,然后打开百度的首页,urlopen()方法一般接收三个参数urlopen(url,data,timeout)第一个参数url是必须要传送的,第

2017-03-28 21:54:09 1484

转载 python爬虫综述

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2017-03-28 20:57:17 329

原创 记录我的爬虫之路

从来没有写过博客,也是第一次接触python,此后写的大多内容可能也是敲别人的代码出来的,但我相信坚持下来总会生出自己的idea,加油

2017-03-28 20:51:44 442

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除