第一个Python单线程爬虫(使用正则表达式)

第一个爬虫程序

单线程爬虫,使用request模块,使用zip实现多个参数的for循环

# coding=utf-8
import requests
import re

html = requests.get('http://money.163.com/special/pinglun/')
text = html.text
t1 = re.findall('<div class="item_top">(.*?)">', text, re.S)
url = []
title = []
date = []

t2 = re.findall('<div class="item_top">(.*?)<ul class="mod_list">', text, re.S)

t3 = str(t2).decode('unicode-escape')   #如果出现u/***的编码可以使用此编码方式

t4 = re.findall('title="(.*?)" class=', t3, re.S)

t5 = re.findall('<span class="time">(.*?)</span>', t3, re.S)

for i in t4:
    title.append(i)

for i in t1:
    # print i
    t = re.findall('<a href="(.*)', i, re.S)
    # t = re.findall('u\'(.*?)\'', t, re.S)
    url.append(t)

for i in t5:
    date.append(i)

# for i, j, k in title, url, date:
#     print 'title:%s,' % i, 'created_at:%s,' % k, 'url:%s' %j

for (x, y, z) in zip(title, date, url):
    print 'title:%s,' % x, 'created_at:%s,' % y, 'url:%s' % z

# for (x, y, z) in t6:
#     print 'title:%s,' % x, 'created_at:%s,' % y, 'url:%s' % z
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值