尝试先爬取新闻链接,然后爬取链接后的正文

该博客介绍了使用Python进行网络爬虫时遇到的问题,包括如何爬取新闻链接及其后续正文,同时指出存在的问题,如可能会抓取到广告内容,以及在爬取完成后无法停止循环。博主分享了参考的CSDN博客单篇教程,旨在提升爬虫技术。
摘要由CSDN通过智能技术生成
from lxml import html
import requests
from pyquery import PyQuery as pq
from urllib.parse import urljoin
import time
from threading import Thread


# 获取全部页的网址
def all_url(url):
    page = 1
    while page <= 50:  # 这里感觉有问题,会导致重复写入内容
        urls = r"https://3g.163.com/touch/news?referFrom="  # r防止转义      + str(page) + ".html"
        print("正在爬取第%d页。" % page)
        print(urls)
        page = page + 1
        get_one_page(urls)


# 获取每页源代码
def get_one_page(urls):
    headers = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(urls, headers=headers)
    r.encoding = r.apparent_encoding
    ht = r.text
    parse_one_page(ht)


# 解析每页网页源代码,并获取新闻链接与新闻标题
def parse_one_page(ht):
    count = 0
    tree = html.fromstring(ht)
    news = tree.xpath("//div[contains(@class, 'tab-content')]//article/a/@href")
    # thre
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值