爬取百度新闻标题和链接

最新推荐文章于 2025-03-14 20:26:59 发布

心脏靠左

最新推荐文章于 2025-03-14 20:26:59 发布

阅读量4.7k

点赞数 8

分类专栏：爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laicom/article/details/103177283

版权

使用python爬取新闻标题及链接，解析数据保存为excel文件。

import re
import requests
from lxml import etree
import pandas as pd

url = 'http://news.baidu.com/'
#请求头
headers = {
   
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36'
}

response = requests.get(url, headers=headers)
data = response.content.decode('utf-8')

with open(

最低0.47元/天解锁文章

博客等级

码龄7年

3
原创

11
点赞

75
收藏

2
粉丝

关注

私信

热门文章

分类专栏

爬虫 3篇

展开全部收起

最新评论

爬取豆瓣 TOP250 电影排行榜
正、回复心脏靠左: 嗯嗯我知道了谢谢
爬取豆瓣 TOP250 电影排行榜
心脏靠左回复正、: 你openpyxl库没有导入，使用这个命令装一下就行了。 pip install openpyxl
爬取豆瓣 TOP250 电影排行榜
正、: 你好，我运行时发现第100行代码出错，出不来表格。 Traceback (most recent call last): File "E:/python_1/demo6.py", line 100, in <module> file.to_excel('./duoban.xlsx', encoding='gbk', index=False) File "E:\python_1\venv\lib\site-packages\pandas\core\generic.py", line 2256, in to_excel engine=engine, File "E:\python_1\venv\lib\site-packages\pandas\io\formats\excel.py", line 730, in write writer = ExcelWriter(_stringify_path(writer), engine=engine) File "E:\python_1\venv\lib\site-packages\pandas\io\excel\_openpyxl.py", line 19, in __init__ from openpyxl.workbook import Workbook ModuleNotFoundError: No module named 'openpyxl'

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。