关闭

第三只爬虫-----豆瓣影评

最近的原则就是把以前爬虫爬到一半出现各种bug,导致爬不下去的网站全部清理掉,第三只豆瓣爬虫来了,主要爬了豆瓣的热门影评内容,部分代码写的不是特别的简洁,现阶段主要是为了掌握各种方法,后期再进一步完善,希望有看到的小伙伴能够帮忙指正。 目标: 爬取豆瓣的热门影评(https://movie.douban.com/review/best/)主要爬取:影评标题、影片详情链接、影评人、影片名、评分、...
阅读(101) 评论(0)

第二只爬虫---百度贴吧

学习了一段时间,就想找些网站实战一下,最近几天尝试着去爬一下百度贴吧(代码写的还是不够精炼,可能存在这样或者那样的问题,希望大家看到可以指正出来,不胜感激) 目标:爬取目标网站 回帖人ID,回帖人昵称,回帖内容和时间(网站:http://tieba.baidu.com/p/3522395718?pn=1) #-*-coding:utf8-*- import urllib.request fro...
阅读(81) 评论(0)

《用python写网络爬虫》--网页抓取方法

目标: 掌握三种网页抓取的方法:正则表达式、BeautifulSoup模块,lxml模块...
阅读(79) 评论(0)

《用python写网络爬虫》第一章

在python3 的基础上实现的,但是相对于作者的代码少了支持代理部分和避免爬虫陷阱部分,代码写入了自己写的注释,暂时的理解就是这样了,希望有看到的朋友可以指正一下,小白成长中。。。 import urllib.request import urllib.error import re import urllib.parse from urllib.parse import urljoin im...
阅读(88) 评论(0)

第一只爬虫---糗事百科

目标: (1)获取评论者及评论内容 (2)将爬取到的数据保存到Excel中...
阅读(49) 评论(0)

python爬虫实战二之爬取百度贴吧帖子

目标: 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,分析一下地址 http://表示资源传输使用http协议 tieba.baidu.com 是百度...
阅读(341) 评论(0)

python 爬虫利器之一Request库的用法

前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 引入 首先我们引入一个小例子来感受一下 import requests r=requests.get('http://cuiqing...
阅读(150) 评论(0)

python爬虫实战一之糗事百科

目标: (1)抓取糗事百科热门段子 (2)过滤带有图片的段子 (3)实现没按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数 糗事百科是不需要登录的,所以也没必要用到cookie,另外糗事百科有的段子是附图的,把图片抓下来不利于显示,所以尝试过滤掉有图的段子 1.确定URL并抓取页面代码 首先确定好页面的url是:http://www.qiushibaike.com/8hr...
阅读(135) 评论(1)

python爬虫之正则表达式

1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。 正则表达式的大致...
阅读(69) 评论(0)

python爬虫之cookie的使用

Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登陆之前,你想抓取某个页面内容是不允许的。那么我们可以利用urllib库保存我们登陆的cookie,然后抓取其他页面就达到目的了。 1.Opener 当你获取一个URL时,你使用一个opener。在前面,我们使用的都是默认的open...
阅读(95) 评论(1)

python爬虫之urlError异常处理

1.URLError URLError产生的原因: (1)网络无连接,即本机无法上网 (2)连接不到特定的服务器 (3)服务器不存在 import urllib.request import urllib.error from urllib.request import urlopen request=urllib.request.Request('http://www.xxxx...
阅读(939) 评论(0)

python爬虫之urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers的属性。 例如知乎:我们发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许多内容,这些内容也不是一次性就加载完成的,实质上是执行了好多请求,一般是首先请求HTML文件,然后加载JS,CSS等,经过多次请求之后,网...
阅读(124) 评论(0)

python爬虫之urllib库的使用

1.爬取百度的源码 爬网页就是根据URL来获取它的网页信息,源码里面有HTML代码,加JS、CSS,其中最重要的部分在HTML代码中 截取了一小段的运行结果 2.分析代码 首先从urllib.request库中导入urlopen方法,然后打开百度的首页,urlopen()方法一般接收三个参数urlopen(url,data,timeout)第一个参数url是必须要传送的,第...
阅读(217) 评论(0)

python爬虫综述

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。 ...
阅读(57) 评论(0)

记录我的爬虫之路

从来没有写过博客,也是第一次接触python,此后写的大多内容可能也是敲别人的代码出来的,但我相信坚持下来总会生出自己的idea,加油...
阅读(143) 评论(0)
    个人资料
    • 访问:2688次
    • 积分:114
    • 等级:
    • 排名:千里之外
    • 原创:8篇
    • 转载:7篇
    • 译文:0篇
    • 评论:2条
    文章存档
    最新评论