爬虫#python#58同城#1

最新推荐文章于 2021-08-02 13:27:10 发布

Oakleyxian

最新推荐文章于 2021-08-02 13:27:10 发布

阅读量274

点赞数

分类专栏： python 爬虫文章标签：爬虫 BeautifulSoup python

本文链接：https://blog.csdn.net/Oakleyxian/article/details/89494029

版权

python 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

加载模块

import datetime #时间
import sqlite3  #数据库模块
import requests #获取HTML网页的主要方法，对应于HTTP的GET
from bs4 import BeautifulSoup #网页解析器的作用,可以对下载好的网页进行页面元素分析

抓就完事了

for i in range(1,50): #抓50页，爱抓几页写几页
    print('当前抓取的页面为',i)
    url='http://bj.58.com/job/pn{}/?key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&final=1&jump=1&PGTID=0d302408-0000-1f63-a998-d5b25d61bc6f&ClickID=3'.format(i) 
    html=requests.get(url) #获取58同城的网页
    html.encoding=html.apparent_encoding #写不写好像没大碍
    soup=BeautifulSoup(html.text,'lxml') #lxml 解析网页
    for li in soup.find('ul',id='list_con').find_all('li'): #要抓的内容都是在这个模块下噢
        
        title=li.find( 'span',class_='name').text #获取标题
        address=li.find('span',class_='address').text #获取地址
        salary=li.find('p',class_='job_salary').text #获取薪资
#         source = tp_soup.find("span", class_="source") 
#         source = source.string if source else None
        wel=li.find('div',class_='job_wel clearfix') 
        if wel:
            wel= wel.text
        else:
            wel=None
        comp=li.find('div',class_='comp_name').text
        cate=li.find('span',class_='cate').text
        jingyan=li.find('span',class_='jingyan').string
        one = (None,title, address, salary, wel, comp, cate, jingyan)
        print('正在抓取：',title)
        
print('你要的东西抓完了')

输出展示（自己存到数据库或则excel那一类的哦）
在这里插入图片描述

Oakleyxian

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫#python#58同城#1

加载模块import datetime #时间import sqlite3 #数据库模块import requests #获取HTML网页的主要方法，对应于HTTP的GETfrom bs4 import BeautifulSoup #网页解析器的作用,可以对下载好的网页进行页面元素分析抓就完事了for i in range(1,50): print('当前抓取的页面为',i...
复制链接

扫一扫