Python 爬虫爬取新浪新闻 BeautifulSoup+requests

最新推荐文章于 2024-05-13 23:58:35 发布

壑壑哒

最新推荐文章于 2024-05-13 23:58:35 发布

阅读量1.5k

点赞数 1

分类专栏：大数据项目过程文章标签： BeautifulSoup python 爬虫

本文链接：https://blog.csdn.net/qq_39493274/article/details/80458968

版权

本文介绍了使用Python3.6和Pycharm进行爬虫学习的过程，主要目标是抓取新浪新闻的文本内容和标题。通过引入requests和BeautifulSoup库，详细讲解了爬虫实现的步骤，并提到了更新pip至10.0.1以及将数据导出到Excel的技巧。此外，还给出了获取urlFormat的方法和BeautifulSoup的帮助文档链接。

摘要由CSDN通过智能技术生成

最近在学习Python爬虫程序，工具是pycharm，Python3.6。

因为我最终需要的是文本内容和文本标题所以实验以获取新浪新闻的文本和标题为例。

实现过程中加载的模块包括以下：

需要注意的是pip版本应当更新为10.0.1

完整代码如下：

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re
import json
import pandas

def getNews(newsurl):

    res = requests.get(newsurl)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    title = soup.select('title')[0].text
    article = soup.find(id="article").get_text();

    return title, article
def parseListLinks():
    urlFormat = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ex

最低0.47元/天解锁文章

壑壑哒

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
Python 爬虫爬取新浪新闻 BeautifulSoup+requests

最近在学习Python爬虫程序，工具是pycharm，Python3.6。因为我最终需要的是文本内容和文本标题所以实验以获取新浪新闻的文本和标题为例。实现过程中加载的模块包括以下：需要注意的是pip版本应当更新为10.0.1 完整代码如下：import requestsfrom bs4 import BeautifulSoupfrom datetime im...
复制链接

扫一扫

专栏目录