爬虫_平凡的世界fei的博客-CSDN博客

爬虫

关注

文章平均质量分 82

关注数：文章数：17 文章阅读量：14461 文章收藏量：3

作者: 平凡的世界fei

这个作者很懒，什么都没留下…

展开

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如

转载 2016-08-24 16:01:37 · 725 阅读 · 0 评论
[Python]网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程

（建议大家多看看官网教程：教程地址）我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeli

转载 2016-08-24 16:14:00 · 589 阅读 · 0 评论
[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识，用来解决简单的贴吧下载，绩点运算自然不在话下。不过要想批量下载大量的内容，比如知乎的所有的问答，那便显得游刃不有余了点。于是乎，爬虫框架Scrapy就这样出场了！Scrapy = Scrach+Python，Scrach这个单词是抓取的意思，暂且可以叫它：小抓抓吧。小抓抓的官网

转载 2016-08-24 16:13:08 · 363 阅读 · 0 评论
[Java] 知乎下巴第5集：使用HttpClient工具包和宽度爬虫

下载地址：https://code.csdn.net/wxg694175346/zhihudown说到爬虫，使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能，但是对于一些比较高级的功能，比如重定向的处理，HTML标记的去除，仅仅使用URLConnection还是不够的。在这里我们可以使用HttpClient这个第三方jar包，下载地址点击

转载 2016-08-24 16:12:35 · 592 阅读 · 0 评论
[Java]知乎下巴第4集：再把抓到篮子里的知乎塞到硬盘里吧

上一回我们说到了如何把知乎的某些内容爬取出来，那么这一回我们就说说怎么把这些内容存储到本地吧。说到Java的本地存储，肯定使用IO流进行操作。首先，我们需要一个创建文件的函数createNewFile：[java] view plain copy public static boolean createNewFil

转载 2016-08-24 16:11:45 · 386 阅读 · 0 评论
[Java]知乎下巴第3集：来人啊快把知乎的答案装到篮子里去

上次我们已经能把知乎的问题抓出来了，但是答案还木有抓出来。这一回合，我们就连着把答案也一起从网站中抠出来=。=前期我们抓取标题是在该链接下：http://www.zhihu.com/explore/recommendations但是显然这个页面是无法获取答案的。一个完整问题的页面应该是这样的链接：http://www.zhihu.com/

转载 2016-08-24 16:11:03 · 424 阅读 · 0 评论
[Java]知乎下巴第2集：使用爬虫来获取知乎的编辑推荐内容

上一回我们拿百度做了测试，那么这一次开始做知乎下巴啦。首先花个三五分钟设计一个Logo=。=作为一个程序员我一直有一颗做美工的心！好吧做的有点小凑合，就先凑合着用咯。接下来呢，我们开始制作知乎的爬虫。首先，确定第一个目标：编辑推荐。网页链接：http://www.zhihu.com/explore/recomm

转载 2016-08-24 16:10:22 · 416 阅读 · 0 评论
[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

身边的小伙伴们很多都喜欢刷知乎，当然我也不例外，但是手机刷太消耗流量，电脑又不太方便。于是，就诞生了这一款小软件：铛铛铛铛！知乎下巴=。=知乎下巴，音译就是知乎下吧 ~首先我们来缕一缕思绪，想想到底要做什么，列个简单的需求。需求如下：1.模拟访问知乎官网（http://www.zhihu.com/）2.下载指定的页面内容，包括：今日最热，本月

转载 2016-08-24 16:09:35 · 481 阅读 · 0 评论
[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

先来说一下我们学校的网站：http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录，然后显示各学科成绩，但是只显示成绩而没有绩点，也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。1.决战前夜先来准备一下工

转载 2016-08-24 16:08:57 · 962 阅读 · 0 评论
[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析

更新：感谢评论中朋友的提醒，百度贴吧现在已经改成utf-8编码了吧，需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。源码下载：http://download.csdn.net/detail/wxg694175346/

转载 2016-08-24 16:08:10 · 487 阅读 · 0 评论
[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.3）源码及解析(简化更新)

Q&A：1.为什么有段时间显示糗事百科不可用？答：前段时间因为糗事百科添加了Header的检验，导致无法爬取，需要在代码中模拟Header。现在代码已经作了修改，可以正常使用。2.为什么需要单独新建个线程？答：基本流程是这样的：爬虫在后台新起一个线程，一直爬取两页的糗事百科，如果剩余不足两页，则再爬一页。用户按下回车只是从库存中获取最新的内容，而不是上网

转载 2016-08-24 16:07:21 · 471 阅读 · 0 评论
[Python]网络爬虫（七）：Python中的正则表达式教程

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样，是必不可少的神兵利器。以下内容转自CNBLOG：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html整理时

转载 2016-08-24 16:06:34 · 441 阅读 · 0 评论
[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

[python] view plain copy# -*- coding: utf-8 -*- #--------------------------------------- # 程序：百度贴吧爬虫 # 版本：0.1 # 作者：why # 日期：2013-05-14 # 语言：Python 2.7 #

转载 2016-08-24 16:05:29 · 380 阅读 · 0 评论
[Python]网络爬虫（五）：urllib2的使用细节与抓站技巧

前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。新建test14来实现一个简单的代理Demo：[python] view

转载 2016-08-24 16:04:52 · 820 阅读 · 0 评论
[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

更好的学习网址：http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl urlopen返回的应答对象response(或者HTTPError

转载 2016-08-24 16:04:05 · 431 阅读 · 0 评论
[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

版本号：Python2.7.5，Python3改动较大，各位另寻教程。所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs

转载 2016-08-24 16:02:24 · 6116 阅读 · 0 评论
[Python]一起来写一个Python爬虫工具类whyspider

很高兴在GITCAFE遇到了志同道合的人发送了合并请求^_^希望更多的人可以参与进来写了很多简单的Python爬虫的小例子，今天突然想做个开源的工具包，在gitcafe上和大家一起分享源码。项目源地址：https://gitcafe.com/callmewhy/whyspider今天写了个最简单的功能：GE

转载 2016-08-24 16:14:49 · 377 阅读 · 0 评论

爬虫

作者: 平凡的世界fei

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

[Python]网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

[Java] 知乎下巴第5集：使用HttpClient工具包和宽度爬虫

[Java]知乎下巴第4集：再把抓到篮子里的知乎塞到硬盘里吧

[Java]知乎下巴第3集：来人啊快把知乎的答案装到篮子里去

[Java]知乎下巴第2集：使用爬虫来获取知乎的编辑推荐内容

[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析

[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.3）源码及解析(简化更新)

[Python]网络爬虫（七）：Python中的正则表达式教程

[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

[Python]网络爬虫（五）：urllib2的使用细节与抓站技巧

[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

[Python]一起来写一个Python爬虫工具类whyspider