关闭

我的第一个爬虫日志

标签: 爬虫正则python
435人阅读 评论(0) 收藏 举报
分类:

刚刚开始学习爬虫,很多东西不懂,还望前辈们多多指教。

我的第一篇爬虫是爬取图片,因为这个内容比较容易入手,所以先从这里开始,此处适用于仅有一页图片的百度贴吧网页或者说只能爬取第一页的图片。

总结流程:

1、导入相应的包

1)传送网址(多页在此不传送页码,新编函数循环传入新的页码)

2、构建函数

1)网址发送请求

2)服务器的响应

3)读取网址编码信息

3、编写正则表达式提取所需内容,括号内容具有唯一性

4、获取内容列表之后循环下载取出

import urllib
import urllib2
import re
#导入需要的包
url = 'http://tieba.baidu.com/p/4558355499'
def getpic(url):
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    html = response.read().decode('utf-8')
    #注意正则需要括号表示分组,我们所需要的内容前后用括号隔开
    re_jpg = r'src="(http://imgsrc.baidu.com.+?\.jpg)" size='
    jpg_url = re.findall(re_jpg,html)
    x = 0#从0开始命名
    for jpg in jpg_url:
        urllib.urlretrieve(jpg,'J:/pydownload/{}.jpg'.format(x))
        x +=1
        print jpg
        
getpic(url)

以下适用于多页图片的百度贴吧网页

import urllib
import urllib2
import re
import time

start_url = 'http://tieba.baidu.com/p/2037526228?pn='
def getpic(url):
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    html = response.read().decode('utf-8')
    
    re_jpg = r'src="(http://imgsrc.baidu.com.+?\.jpg)" width='
    jpg_url = re.findall(re_jpg,html)
    for jpg in jpg_url:
        #urllib.urlretrieve(jpg,'J:/pydownload/{}.jpg'.format(x))
        urllib.urlretrieve(jpg,"J:/pydownload/%s.jpg"% jpg.split('/')[-1])
        print jpg
def get_all(pages):
    for i in range(1,pages):
        url = start_url + str(i)
        getpic(url)
        time.sleep(2)
        
get_all(2)


0
0
查看评论

python日志的配置文件路径问题

import logging import logging.config logging.config.fileConfig(path) logger = logging.getLogger('') 利用以上python代码配置日志输出时,如果该脚本是主脚本(即imp...
  • xiakai6768
  • xiakai6768
  • 2017-01-19 14:48
  • 939

python读取目录下文件并生成日志

很长的一段代码,但很清楚。哈哈。 import osfrom time import strftimestamp=strftime("%Y-%m-%d %H:%M:%S")logfile = F://test//m-php-framework//tmp/logs//er...
  • lmss82
  • lmss82
  • 2010-05-12 12:28
  • 1701

我的第一个爬虫日志

刚刚开始学习爬虫,很多东西不懂,还望前辈们多多指教。
  • Jemila
  • Jemila
  • 2016-05-31 13:45
  • 435

Hadoop 日志文件分析

http://blog.csdn.net/lifuxiangcaohui/article/details/20233607 当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示。Hadoop MapReduce日志分为两部分,一部分是服务日志,一部分是作业日志。hadoop运行过程...
  • u010004460
  • u010004460
  • 2016-07-27 18:23
  • 403

我把我用R写的第一个爬虫就献给了国家

我使用R语言rvest 爬取今年的《政府工作报告》文章内容,jiebaR 用于分词,统计词频,再使用wordcloud2 用于对文本进行可视化。
  • wzgl__wh
  • wzgl__wh
  • 2017-05-31 22:50
  • 4157

我的第一个爬虫

# 环境python 3.5.2 + beautifulsoup # 准备工作:了解 python 自带的模块 urllib + beautifulsoup 的网页解析#爬取了一个图片网站的部分图片from urllib import request from bs4 import Beautif...
  • Waterkong
  • Waterkong
  • 2017-05-24 13:06
  • 262

Python log的说明

import logging          logger = logging.getLogger()  # 生成一个日志对象     logfile = 'test.log' ...
  • cnmilan
  • cnmilan
  • 2013-06-27 18:41
  • 611

logging的陷阱:python使用logging不能写日志,写不出日志

问题我自己写了两个模块request和checkcode,这两个中都引用了logging进行记录日志. 当分别使用request和checkcode时均没有问题,但是,将两个模块都导入后,写日志就出现异常.总是一个能写日志,一个不能写日志.原因因为两个文件中都是使用logging配置文件的方式创建...
  • win_turn
  • win_turn
  • 2017-08-13 21:05
  • 449

我的第一个网页

今天学习制作了一个简易的电影网页页面,链接地址链接到优酷、电影天堂等网站。 嘉米电影站点 嘉米电影站 ...
  • chandoudeyuyi
  • chandoudeyuyi
  • 2015-08-27 21:58
  • 937

scrapy爬虫起步(1)--第一个爬虫程序

使用scrapy抓取豆瓣小组的组名1. 新建scrapy工程新建工程文件夹,命令行cd到该目录下,用下面的命令新建一个scrapy工程 scrapy startproject dmoz 新建好的工程目录结构为:E:\PYTHON WORKSPACE\DOUBAN │ scrapy.cfg └...
  • felcon
  • felcon
  • 2015-06-16 15:49
  • 939
    个人资料
    • 访问:47087次
    • 积分:807
    • 等级:
    • 排名:千里之外
    • 原创:31篇
    • 转载:9篇
    • 译文:0篇
    • 评论:11条
    我的QQ
    963570357
    最新评论