加载模块
import datetime #时间
import sqlite3 #数据库模块
import requests #获取HTML网页的主要方法,对应于HTTP的GET
from bs4 import BeautifulSoup #网页解析器的作用,可以对下载好的网页进行页面元素分析
抓就完事了
for i in range(1,50): #抓50页,爱抓几页写几页
print('当前抓取的页面为',i)
url='http://bj.58.com/job/pn{}/?key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&final=1&jump=1&PGTID=0d302408-0000-1f63-a998-d5b25d61bc6f&ClickID=3'.format(i)
html=requests.get(url) #获取58同城的网页
html.encoding=html.apparent_encoding #写不写好像没大碍
soup=BeautifulSoup(html.text,'lxml') #lxml 解析网页
for li in soup.find('ul',id='list_con').find_all('li'): #要抓的内容都是在这个模块下噢
title=li.find( 'span',class_='name').text #获取标题
address=li.find('span',class_='address').text #获取地址
salary=li.find('p',class_='job_salary').text #获取薪资
# source = tp_soup.find("span", class_="source")
# source = source.string if source else None
wel=li.find('div',class_='job_wel clearfix')
if wel:
wel= wel.text
else:
wel=None
comp=li.find('div',class_='comp_name').text
cate=li.find('span',class_='cate').text
jingyan=li.find('span',class_='jingyan').string
one = (None,title, address, salary, wel, comp, cate, jingyan)
print('正在抓取:',title)
print('你要的东西抓完了')
输出展示(自己存到数据库或则excel那一类的哦)