python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

最新推荐文章于 2024-01-17 16:35:52 发布

机器人农场

最新推荐文章于 2024-01-17 16:35:52 发布

阅读量2.2k

点赞数

文章标签： python爬虫爬取新闻标题及链接

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35939140/article/details/113984669

版权

本文介绍了使用Python爬虫从百度新闻网站抓取新闻标题及其链接的过程。通过requests和BeautifulSoup库解析HTML，实现对新闻标题和链接的提取。在编码过程中遇到find函数错误和获取特定属性的问题，经过学习和实验最终解决问题，但仍有开头和结尾的多余部分待优化。

摘要由CSDN通过智能技术生成

1.主题：百度新闻爬取

2.

python代码：

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def filllist(demo):

soup=BeautifulSoup(demo,"html.parser")

for i in soup.find_all("a"):

list1=i.attrs

print(i.text,end=' ')

print(list1['href'])

def main():

url="http://news.baidu.com/"

demo=getHTMLText(url)

getHTMLText(url)

filllist(demo)

main()

代码完成之后就是这个样子

3.问题：在代码编写过程中，我遇到了很多问题，比如一开始用find函数总是出现错误，我也是看大家的代码才找到正确的打开方式。

另外开始是这样的，一下子所有的属性都打出

我的本意是只要链接的那部分属性，经过反复看视频和多次的实验终于解决了这个难题，形成了开头那个样子。很开心！

但是开头和结尾还是有多余的部分不知道怎么解决，求助！

机器人农场

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

1.主题：百度新闻爬取2.python代码：import requestsfrom bs4 import BeautifulSoupdef getHTMLText(url):try:r = requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:retur...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。