爬虫
文章平均质量分 75
羽二
这个作者很懒,什么都没留下…
展开
-
Python 类 __init__ self 之间的关系与理解
原文在这 http://www.crifan.com/summary_the_meaning_of_self_and___init___in_python_and_why_need_them/大致意思是当 在类之间 ,如果传入的数据不经常过__init__ 初始化,从而转为实例自身数据的化,那么self就无法调用传入的数据。 所以必须要先初始化,转成新建实例的数据,然后才转载 2016-12-03 11:25:55 · 299 阅读 · 0 评论 -
爬虫 scrapy 框架学习 1. Scrapy框架业务逻辑的理解 + 简单爬虫案例示范
爬虫框架scrapy ,在初步接触的过程中记录下学习过程。今天是初步的学习笔记。当然在前期的学习过程中,随着不断的深入,初步的理解可能会错误,但会在后续的各章中持续深入。本文参考了 http://www.jianshu.com/p/a8aad3bf4dc4 scrapy框架是用作爬虫的一个框架。以下为整个业务逻辑以上为爬虫的业务原创 2016-12-10 22:13:36 · 994 阅读 · 0 评论 -
简单爬虫源码,下载指定网页所有图片
以下是源码,参考的是虫师写的简单爬虫的实现,虫师教程太老,导致范例跑不起来。 原因是里面的网址404了。必须要正则能够搜索到图片。本文范例所用网址里面的图片命名是 http://tb.himg.baidu.com/sys/portrait/item/33a5786c3936343937303734355a33#-*- coding:utf-8 -*-import reimpo原创 2016-10-17 14:48:18 · 1280 阅读 · 0 评论 -
爬取百度贴吧帖子 源码案例
以下为爬取百度贴吧帖子案例。运行后会把帖子内的所有发言下载到一个TXT文件里面#coding=utf-8import urllibimport urllib2import re#处理页面标签类class Tool: #去除img标签,7位长空格 removeImg = re.compile('| {7}|') #删除超链接标签 remov原创 2016-12-04 21:40:03 · 589 阅读 · 0 评论 -
win7环境下安装爬虫框架 scrapy
环境Windows7 64位Python2.7.6 64位Python的安装:打开http://www.python.org/getit/releases/2.7.6/页面,下载Python-2.7.6.amd64.msi 进行安装,安装完成后,需要配置环境变量,环境变量的配置可以参考该文章测试python是否安装成功,如果python成功安装并且配置好环境变量,那么在cm转载 2016-12-05 22:26:09 · 423 阅读 · 0 评论 -
Python 爬虫模拟登陆知乎
# -*- coding:utf-8 -*-import cookielibimport urllibimport urllib2import reurl_start = r'https://www.zhihu.com/topic/19556498/questions?page='filename = 'cookie.txt'cookie = cookielib.MozillaCo原创 2016-12-07 20:24:21 · 292 阅读 · 0 评论