2019-12-6 爬网页6-request模块+get请求+正则筛选

本文介绍了如何使用Python的request模块进行GET请求,爬取https://www.yuanjisong.com/job/shanghai上的静态网页内容。通过分析HTML代码,提取出任务名称、内容、委托人、工时、报酬和状态等信息,并利用正则表达式进行筛选。同时,文章详细讲述了翻页逻辑,从初始页开始,通过比较页码确定最大页码。在将数据保存到Excel时,遇到特殊字符导致的错误,解决方案是使用'xlsxwriter'作为引擎。
摘要由CSDN通过智能技术生成

继续研究爬网页,这次的网站是https://www.yuanjisong.com/job/shanghai
这是一个纯静态的网页,请求方式是get,所以直接使用request模块就行了。

每个任务的相关html代码如下

<div class="weui_panel weui_panel_access weui_panel_access_adapt db_adapt margin-top-2 ">
 	<a href="https://www.yuanjisong.com/job/104128" target="_blank">
		<div class="weui_panel_hd weui_panel_hd_adapt media_desc_adapt_url">
		<div class="topic_title">系统二次开发</div></div></a>
	<div class="job_list_item_div">
		<div class="weui_panel_bd ">
			<div class="weui_media_box weui_media_text media_box_adapt">
			<a href="https://www.yuanjisong.com/job/104128" class="media_desc_content_adapt" target="_blank">
												<p class="media_desc_adapt ">
		<span class="glyphicon glyphicon-th-large" aria-hidden="true"></span>
		<span class="job_list_item_title ">描述:</span>在系统基础上增加新模块。具体需求加附件QQ我发给你。要求1. 3年以上**********MVC 开发经验;; 2. 至少掌握一种SQL关系型数据库(mysql或sqlserver); 3. 熟练掌握EasyUI、HTML、CSS、JavaScript、jQuery、AJAX、JSON等Web前端技术; 4. 使用Redis、MongoDB参与过实际项目的优先考虑<!--  <span class="more_text">详情...</span> --></p></a></div></div>

	<div class="weui_panel_bd" >
		<a href="https://www.yuanjisong.com/employer/134659" class="weui_media_box weui_media_
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值