finna_xu-CSDN博客

原创第三只爬虫-----豆瓣影评

最近的原则就是把以前爬虫爬到一半出现各种bug，导致爬不下去的网站全部清理掉，第三只豆瓣爬虫来了，主要爬了豆瓣的热门影评内容，部分代码写的不是特别的简洁，现阶段主要是为了掌握各种方法，后期再进一步完善，希望有看到的小伙伴能够帮忙指正。目标：爬取豆瓣的热门影评（https://movie.douban.com/review/best/）主要爬取：影评标题、影片详情链接、影评人、影片名、评分、

2017-04-29 10:20:13 612

原创第二只爬虫---百度贴吧

学习了一段时间，就想找些网站实战一下，最近几天尝试着去爬一下百度贴吧（代码写的还是不够精炼，可能存在这样或者那样的问题，希望大家看到可以指正出来，不胜感激）目标：爬取目标网站回帖人ID，回帖人昵称，回帖内容和时间（网站：http://tieba.baidu.com/p/3522395718?pn=1）#-*-coding:utf8-*-import urllib.requestfro

2017-04-26 18:32:51 336

原创《用python写网络爬虫》--网页抓取方法

目标：掌握三种网页抓取的方法：正则表达式、BeautifulSoup模块，lxml模块

2017-04-19 20:27:13 998

原创《用python写网络爬虫》第一章

在python3 的基础上实现的，但是相对于作者的代码少了支持代理部分和避免爬虫陷阱部分，代码写入了自己写的注释，暂时的理解就是这样了，希望有看到的朋友可以指正一下，小白成长中。。。import urllib.requestimport urllib.errorimport reimport urllib.parsefrom urllib.parse import urljoinim

2017-04-08 08:34:13 381

原创第一只爬虫---糗事百科

目标：（1）获取评论者及评论内容（2）将爬取到的数据保存到Excel中

2017-04-05 19:44:47 342

原创 python爬虫实战二之爬取百度贴吧帖子

目标：1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先，我们先观察一下百度贴吧的任意一个帖子。比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，分析一下地址http：//表示资源传输使用http协议tieba.baidu.com 是百度

2017-03-31 14:01:28 2437 1

转载 python 爬虫利器之一Request库的用法

前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。引入首先我们引入一个小例子来感受一下import requestsr=requests.get('http://cuiqing

2017-03-31 08:39:57 1341

原创 python爬虫实战一之糗事百科

目标：（1）抓取糗事百科热门段子（2）过滤带有图片的段子（3）实现没按一次回车显示一个段子的发布时间，发布人，段子内容，点赞数糗事百科是不需要登录的，所以也没必要用到cookie，另外糗事百科有的段子是附图的，把图片抓下来不利于显示，所以尝试过滤掉有图的段子1.确定URL并抓取页面代码首先确定好页面的url是：http://www.qiushibaike.com/8hr

2017-03-29 19:58:35 552 1

转载 python爬虫之正则表达式

1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致

2017-03-29 18:37:00 267

转载 python爬虫之cookie的使用

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登陆之前，你想抓取某个页面内容是不允许的。那么我们可以利用urllib库保存我们登陆的cookie，然后抓取其他页面就达到目的了。1.Opener当你获取一个URL时，你使用一个opener。在前面，我们使用的都是默认的open

2017-03-29 15:24:24 638 1

转载 python爬虫之urlError异常处理

1.URLErrorURLError产生的原因：(1)网络无连接，即本机无法上网(2)连接不到特定的服务器(3)服务器不存在import urllib.requestimport urllib.errorfrom urllib.request import urlopenrequest=urllib.request.Request('http://www.xxxx

2017-03-29 14:27:23 8364

转载 python爬虫之urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers的属性。例如知乎：我们发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许多内容，这些内容也不是一次性就加载完成的，实质上是执行了好多请求，一般是首先请求HTML文件，然后加载JS，CSS等，经过多次请求之后，网

2017-03-29 11:07:12 410

转载 python爬虫之urllib库的使用

1.爬取百度的源码爬网页就是根据URL来获取它的网页信息，源码里面有HTML代码，加JS、CSS，其中最重要的部分在HTML代码中截取了一小段的运行结果2.分析代码首先从urllib.request库中导入urlopen方法，然后打开百度的首页，urlopen()方法一般接收三个参数urlopen(url,data,timeout)第一个参数url是必须要传送的，第

2017-03-28 21:54:09 1484

转载 python爬虫综述

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2017-03-28 20:57:17 329

原创记录我的爬虫之路

从来没有写过博客，也是第一次接触python，此后写的大多内容可能也是敲别人的代码出来的，但我相信坚持下来总会生出自己的idea，加油

2017-03-28 20:51:44 442

finna_xu的博客