python爬虫（1）-百度新闻首页抓取

最新推荐文章于 2024-07-01 11:04:11 发布

萧居士

最新推荐文章于 2024-07-01 11:04:11 发布

阅读量1.4k

点赞数 3

文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_42617035/article/details/102601496

版权

百度热点新闻上，前6条是在strong > a下面抓取，后30条，以及之后的各个分版块（国内，国际，地方，娱乐，体育等等），抓取的特征值是a标签下的mon的值，c=板块名称，pn=为每个分类下的第几条新闻，一个分类下显示12条（地方新闻显示8条），看看原网页就可以知道了。

完整代码如下

import  requests
from bs4 import  BeautifulSoup
import time

url='http://news.baidu.com/'
res=requests.get(url)
soup = BeautifulSoup(res.text,'lxml')

print('百度新闻python爬虫抓取')

print('头条热点新闻')
sel_a =soup.select('strong a')
for i in range(0,5):
   print(sel_a[i].get_text())
   print(sel_a[i].get('href'))

print('热点新闻')
titles_b=[]
titlew=""
for i in range(1,31):
   sel_b=soup.find_all('a',mon="ct=1&a=2&c=top&pn="+str(i))
   titles_b.append(sel_b[0])
for i in range(0,30):
   print(titles_b[i].get_text())
   print(titles_b[i].get('href'))
   titlew=titlew + titles_b[i].get_text() + "\n"

# 获取当前时间
now = time.strftime('%Y-%m-%d', time.localtime(time.time()))
# 输出到文件
with open('news' + now + '.txt', 'a', encoding='utf-8') as file:
   file.write(titlew) #只输出标题

摸索期间，可以直接把网页下载到本地进行调试，代码如下：

with open('本地文件路径',encoding='utf-8') as f:
#  print(f.read())
soup = BeautifulSoup(f,'lxml')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

萧居士

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫实践——爬取百度首页

活在当下

01-09

4331

写一个最简单的例子，爬取百度首页右上角的“新闻”链接的名称和其URL。截取新闻的xpath,(F12,选择新闻两字，右击，选择Copy-Copy Xpath).(注意：若登录百度，相应xpath会改变，此为非登录状态) 在看例子前，建立了解下Xpath基础，如何定义网络页面的。 import requests from lxml import etree response = requ...

基于Python的百度新闻爬虫程序

04-06

3 条评论您还未登录，请先登录后发表或查看评论

Python爬虫实战项目：简单的百度新闻爬虫

05-25

2039

这个实战例子是构建一个大规模的异步新闻爬虫，但要分几步走，从简单到复杂，循序渐进的来构建这个Python爬虫本教程所有代码以Python 3.6实现，不兼顾Python 2，强烈建议大家使用Python 3 ...

爬取百度搜索新闻（大模型银行）

weixin_51331203的博客

07-01

484

用到了selenium来模拟人为打开浏览器。之前尝试过直接用requests.get()，发现会弹出百度安全验证，加了referer，user-agent等headers都无法爬取，于是采用了这个方法。以下是除了微信公众号爬取有问题其他内容可以爬取的源代码。接下来将进行测试，如何正确输出微信公众号的文本内容。这个方法实测能用，但爬取速度较慢。爬着玩的，训练自己的爬虫能力。

python爬取新浪新闻首页_python3爬虫-爬取新浪新闻首页所有新闻标题

weixin_39918747的博客

11-20

477

准备工作：安装requests和BeautifulSoup4。打开cmd，输入如下命令pip install requestspip install BeautifulSoup4按F12打开开发人员工具，点击左上角的图片，然后再页面中点击你想查看的元素：我点击了新闻标题处的元素，查看到该元素为class=news-item的元素：在这里，我们要获取新闻的时间，标题和链接，查看到分别在如下位置：现在...

Python爬虫获取百度新闻

weixin_33691700的博客

02-20

616

Python爬虫百度新闻微笑的小小刀：有梦想，爱技术。在城市中奋斗却向往着田园生活有故事，有酒，来来来，与尔同销万古愁本人博客 : www.lixiang.red 谢谢大家支持总体步骤 python 环境准备页面url分析代码抓取 python 环境准备 pycharm beautifu...

Python爬虫--抓取百度百科的前1000个页面

10-30

通过以上步骤，我们可以构建一个基本的Python爬虫，抓取百度百科的前1000个页面。这个过程中，学习和理解HTTP交互、HTML解析、数据存储以及如何处理分页和异常情况是关键。在实际应用中，还需要根据具体需求进行优化...

01-Python爬虫工程师-App数据抓取

02-22

Python爬虫工程师-App数据抓取思维导图，便捷整理思路，目标、对项目、公司、个人的意义、爬虫工程师技术储备

Python爬虫入门教程-大规模网页抓取-分布式爬虫

最新发布

09-17

Python爬虫入门教程-大规模网页抓取-分布式爬虫另外如果说知识体系里的每一个知识点是图里的点，依赖关系是边的话，那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此，你不需要学习怎么样...

11-Python爬虫工程师-App抓取进阶

03-05

Python工程师-APP实战思维导图，便捷整理思路，目标任务，SSL Pinning技术和Xposed框架，多任务端

python爬虫教学-python爬虫

02-20

Python爬虫教学是一个针对初学者和有一定编程基础的开发者设计的教程，旨在教授如何使用Python进行网络数据抓取。在互联网上，数据无处不在，而Python爬虫可以帮助我们自动化地获取这些数据，用于数据分析、研究或...

Python爬虫：使用newspaper解析新闻页面信息

彭世瑜的博客

10-18

2899

github: https://github.com/codelucas/newspaper 安装 pip3 install newspaper3k 代码示例 # -*- coding: utf-8 -*- from newspaper import Article url = "https://news.sina.com.cn/c/xl/2019-02-25/doc-ihrfqzka909...

爬取百度新闻首页的新闻标题

qq_44090228的博客

07-24

449

import requests import re def getHtml(url): try: headers={'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'} r=requests.get(url,headers=headers)

python爬取新浪新闻首页_python 爬虫入门爬取新浪新闻

weixin_39628160的博客

11-20

433

1大家知道，爬虫实际上就是模拟浏览器请求，然后把请求到的数据，经过我们的分析，提取出我们想要的内容，这也就是爬虫的实现2首先，我们要写爬虫，可以借鉴一些工具，我们先从简单的入门，首先说到请求，我们就会想到python中，非常好用的requests，然后说到分析解析就会用到bs4，然后我们可以直接用pip命令来实现安装，假如安装的是python3，也可以用pip33安装好这两个类库之后，然后我们就可...

python抓取新闻_Python抓取新闻实例应用

weixin_39842475的博客

12-05

375

之前已经在学习Python语言了，还没有学习完，近期需要做一个新闻动态的模块，需要一些最新的财经方面的新闻，作为软件公司，肯定是没有这方面的资源，但是身为技术开发人员，首先想到的肯定是去别人家的网站去抓取别人家现成的信息，之前也接触过Java的一个爬虫的API，也就是Gecco，了解过这个东西，用起来不是很好用，果断想到Python，正好我也在一直学习Python，对Python的一些基本的语法还...

利用Python爬虫抓取腾讯新闻首页内容

米时光

07-27

597

import urllib.request import urllib.error import re,ssl #异常处理 try: #针对https ,需要单独处理 #import ssl #ssl._create_default_https_context = ssl._create_unverified_context ssl._create_default_https_context = ssl._create_unverified_context url=”https://xw.qq.com/”

使用python爬虫爬取百度新闻，告诉你社会热点话题

weixin_44906535的博客

05-07

9060

1.网络爬虫基础使用（1）urllib介绍： urllib中包括了四个模块，包括： urllib.request：可以用来发送request和获取request的结果 urllib.error：包含了urllib.request产生的异常 urllib.parse：用来解析和处理URL urllib.robotparse：用来解析页面的robots.txt文件（2）urllib.reque...

数据解析beautifulsoup爬取百度新闻首页热点要闻并保存到数据库（学习内容）

sick_1412的博客

11-14

2113

import requests from bs4 import BeautifulSoup import pymysql def download(url): headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020...

爬取百度新闻标题和链接

laicom的博客

11-21

4447

import re import requests from lxml import etree url = 'http://news.baidu.com/' #请求头 headers = { "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...

Python爬虫实战：百度贴吧数据抓取与设计

本篇文档是西南财经大学的一篇本科生毕业论文，题为《基于python爬虫对百度贴吧进行爬取的设计与实现》。作者针对百度贴吧这一热门社交媒体平台，探讨如何利用Python编程语言构建网络爬虫，以实现高效的数据抓取和...