python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的

#coding:utf8

from bs4 import BeautifulSoup
import urllib2
import urllib

import os


i = 0
j = 0
list_a = []


def gettext(href):
    global j,list_a
    page = urllib.urlopen(href).read()
    soup = BeautifulSoup(page,from_encoding="gb18030")
    div = soup.find_all("div",class_="content")
    p_text = div[0].find_all("p")
    for p in p_text:
        fp = file("%s.txt" % list_a[j],"a")
        fp.write(' ')
        fp.write(p.get_text())
        fp.write(" \n")
        j+=1


def gethref(url): #获得所有链接
        global i,list_a
        fp = file("AllTitle.txt","w+")
        page = urllib.urlopen(url).read()
        soup = BeautifulSoup(page,from_encoding="gb18030")
        ul = soup.find_all("ul",class_="row1")
        li = ul[0].find_all("li")
        for lia in li:
            list_a.append(("%s、" % (i+1))+lia.h3.get_text())
            href = lia.a.get('href')
            # 将标题简介和链接有规则的写入文件中
            fp.write("%s、" % (i+1))
            i+=1
            fp.write("标题:")
            fp.write(lia.h3.get_text())
            fp.write("\n 简介:")
            fp.write(lia.p.get_text())
            fp.write("\n 链接:")
            fp.write(lia.a.get("href"))
            fp.write("\n")
            gettext(href)


if "__main__"==__name__:
    url ="http://re.qq.com/biznext/zkht.htm"
    gethref(url)
    print "All Is OK!"

搜索与推荐Wiki

扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章!


                             【技术服务】,详情点击查看:https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg 


外包服务

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值