如何用python爬新闻_如何使用python写爬虫程序?

本文介绍了使用Python进行网络爬虫的基本步骤,包括利用requests获取网页,使用BeautifulSoup解析HTML,以及数据存储和初步展示。通过实例展示了如何爬取58同城二手市场的分类链接。
摘要由CSDN通过智能技术生成

python编写爬虫的整体思路简单清晰,下面来说一下具体的步骤:

先来看代码,在解释,一个简单的网络爬虫示例import requestsfrom bs4 import BeautifulSoup#58同城的二手市场主页面start_url = 'http://bj.58.com/sale.shtml'url_host = 'http://bj.58.com'#定义一个爬虫函数来获取二手市场页面中的全部大类页面的连接def get_channel_urls(url):#使用Requests库来进行一次请求web_data = requests.get(url)#使用BeautifulSoup对获取到的页面进行解析soup = BeautifulSoup(web_data.text, 'lxml')#根据页面内的定位信息获取到全部大类所对应的连接urls = soup.select('ul.ym-submnu > li > b > a')#作这两行处理是因为有的标签有链接,但是却是空内容for link in urls:if link.text.isspace():continueelse:page_url = url_host + link.get('href')print(page_url)

整体思路流程

通过URL获取说要爬取的页面的响应信息(Requests库的使用)

通过python中的解析库来对response进行结构化解析(BeautifulSoup库的使用)

通过对解析库的使用和对所需要的信息的定位从response中获取需要的数据(selecter和xpath的使用)

将数据组织成一定的格式进行保存(MongoDB的使用)

通过对数据库中的数据进行筛选和组织,进行数据可视化的初步展示(HighCharts库的使用)

简单代码演示

准备工作

下载并安装所需要的python库,包括:

requests库:用于向指定url发起请求

BeautifulSoup库:用于解析返回的网页信息

lxml库:用于解析网页返回结果

pymongo库:用于实现python对MongoDB的操作

对所需要的网页进行请求并解析返回的数据

对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。(更多学习内容,请点击python学习网)

以上就是一个简单的网页爬虫的制作过程,我们可以通过定义不同的爬虫来实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。

原文至:https://www.py.cn/faq/python/12812.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值