小白写爬虫之第一天

最新推荐文章于 2023-09-14 22:31:30 发布

songhuanlinux

最新推荐文章于 2023-09-14 22:31:30 发布

阅读量522

点赞数

分类专栏：其他文章标签： python scrapy 爬虫小白

本文链接：https://blog.csdn.net/songhuanlinux/article/details/48318923

版权

其他专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本人python小白一枚，只会简单的linux命令而已，本着闲着也是闲着，生命在于折腾的原则，向spider发起冲锋，

第一步肯定是度娘了，发现如下：

Python中urllib和urllib2库的用法
正则表达式
爬虫框架 Scrapy
高级功能

让我用urlib手动玩，有点搞不懂，毕竟是python小白，

那就选爬虫框架 Scrapy了，废话少说，

系统是ubuntu14,04 不免又百度怎么安装Scrapy，这个好办：http://jingyan.baidu.com/article/f3ad7d0f129c7809c2345b56.html

装完了怎么用呢？

看下面这个教程 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html

看完开始写参考一下几篇文章：

参考这篇微博： http://blog.csdn.net/zbyufei/article/details/7554322

还有这篇： http://blog.csdn.net/ns2250225/article/details/43306779

还有这篇： http://my.oschina.net/lpe234/blog/305393

加上这篇： http://my.oschina.net/chengye/blog/124162

照着教程搞一发：

目标：美女吧的众美女贴图当然你可以去什么黑丝吧爆照吧等等等等哇一大波福利啊~

折腾了一天就搞会了一个提取url，我也是醉了

说一下：

新建工程啥玩意的请看上面的教程 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html

用scrapy主要有一下几个文件

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

from scrapy.item import Item,Field

class TiebaItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

img_url = scrapy.Field()

pass

自定义的spider文件

tiebaSpider.py

#-*- coding:utf-8 -*-
#coding: UTF-8
import scrapy
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
#from TieBaSpider.items import TiebaItem
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule

#写一个蜘蛛继承自scrapy.spider

class TieBaSpider(scrapy.spiders.Spider):
    name = "tieba" #名字一定要注意
    download_delay = 1 #延时
    allowed_domains = ["tieba.baidu.com"] #域名空间超出域名就不解析了

#起始网址
    start_urls = [
            " http://tieba.baidu.com/p/4012183664",
            " http://tieba.baidu.com/p/4029206429",
            " http://tieba.baidu.com/p/4031033974",
            " http://tieba.baidu.com/p/4020708988",
            ]

#因为小白还没整出来递归调用不能自动解析链接进行递归爬行，所以根据贴吧的url规律进行尾数累加组成url

url_1 = " http://tieba.baidu.com/p/"
start = 4029206429

    for i in range(300): #暂定循环300次
        next_url = url_1 + str(start + i ) #拼接url
        print next_url #显示url
        start_urls.append(next_url) #添加到起始url中

    f = open('/home/linux/python/tieba.html','wb') #打开文件

    def parse(self, response): #这个函数必须实现用于内容提取
        hxs=HtmlXPathSelector(response) #
        sites = hxs.select('//div/div/cc/div/img/@src').extract() #用firebug工具发现到图片的xpath规律，然后提取图片的url
        items=[]

        for site in sites: #将图片的url写到 html文件中
            self.f.write('<img src=') #用img标签来显示图片

            self.f.write(site) #程序运行完成后可以用浏览器打开tieba.html查看图片
            self.f.write('>')
            self.f.write('\r\n')

        return items

#搞了一天才整出来一个下载图片的url，实在是才疏学浅，基础薄弱，但是每天能有进步就ok

#明天希望能完成一个自动解析url的功能出来加油！

#今天到此为止一会公司要周年庆吃饭去了！

#晚上回去爬某丝吧的图片去~

songhuanlinux

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小白写爬虫之第一天

本人python小白一枚，只会简单的linux命令而已，本着闲着也是闲着，生命在于折腾的原则，向spider发起冲锋，第一步肯定是度娘了，发现如下：Python中urllib和urllib2库的用法正则表达式爬虫框架 Scrapy高级功能让我用urlib手动玩，有点搞不懂，毕竟是python小白，那就选爬虫框架 Scrapy了，废话少说
复制链接

扫一扫