python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的

#coding:utf8

from bs4 import BeautifulSoup
import urllib2
import urllib

import os


i = 0
j = 0
list_a = []


def gettext(href):
    global j,list_a
    page = urllib.urlopen(href).read()
    soup = BeautifulSoup(page,from_encoding="gb18030")
    div = soup.find_all("div",class_="content")
    p_text = div[0].find_all("p")
    for p in p_text:
        fp = file("%s.txt" % list_a[j],"a")
        fp.write(' ')
        fp.write(p.get_text())
        fp.write(" \n")
        j+=1


def gethref(url): #获得所有链接
        global i,list_a
        fp = file("AllTitle.txt","w+")
        page = urllib.urlopen(url).read()
        soup = BeautifulSoup(page,from_encoding="gb18030")
        ul = soup.find_all("ul",class_="row1")
        li = ul[0].find_all("li")
        for lia in li:
            list_a.append(("%s、" % (i+1))+lia.h3.get_text())
            href = lia.a.get('href')
            # 将标题简介和链接有规则的写入文件中
            fp.write("%s、" % (i+1))
            i+=1
            fp.write("标题:")
            fp.write(lia.h3.get_text())
            fp.write("\n 简介:")
            fp.write(lia.p.get_text())
            fp.write("\n 链接:")
            fp.write(lia.a.get("href"))
            fp.write("\n")
            gettext(href)


if "__main__"==__name__:
    url ="http://re.qq.com/biznext/zkht.htm"
    gethref(url)
    print "All Is OK!"


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值