尝试先爬取新闻链接，然后爬取链接后的正文

最新推荐文章于 2024-08-03 19:27:22 发布

茄汁蔬菜

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量871

点赞数

分类专栏： python3 文章标签： python

本文链接：https://blog.csdn.net/c348762444/article/details/119170469

版权

该博客介绍了使用Python进行网络爬虫时遇到的问题，包括如何爬取新闻链接及其后续正文，同时指出存在的问题，如可能会抓取到广告内容，以及在爬取完成后无法停止循环。博主分享了参考的CSDN博客单篇教程，旨在提升爬虫技术。

摘要由CSDN通过智能技术生成

from lxml import html
import requests
from pyquery import PyQuery as pq
from urllib.parse import urljoin
import time
from threading import Thread


# 获取全部页的网址
def all_url(url):
    page = 1
    while page <= 50:  # 这里感觉有问题，会导致重复写入内容
        urls = r"https://3g.163.com/touch/news?referFrom="  # r防止转义      + str(page) + ".html"
        print("正在爬取第%d页。" % page)
        print(urls)
        page = page + 1
        get_one_page(urls)


# 获取每页源代码
def get_one_page(urls):
    headers = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(urls, headers=headers)
    r.encoding = r.apparent_encoding
    ht = r.text
    parse_one_page(ht)


# 解析每页网页源代码，并获取新闻链接与新闻标题
def parse_one_page(ht):
    count = 0
    tree = html.fromstring(ht)
    news = tree.xpath("//div[contains(@class, 'tab-content')]//article/a/@href")
    # thre

最低0.47元/天解锁文章

茄汁蔬菜

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
尝试先爬取新闻链接，然后爬取链接后的正文

from lxml import htmlimport requestsfrom pyquery import PyQuery as pqfrom urllib.parse import urljoinimport timefrom threading import Thread# 获取全部页的网址def all_url(url): page = 1 while page <= 50: urls = r"https://3g.163.com/touc.
复制链接

扫一扫