一:爬取数据
二:上传数据
三:数据分析
四:数据可视化
第一部分:数据的爬取
UP主利用bs4爬取的51招聘的招聘信息。
for i in os.listdir(a): if len(os.listdir(a)) != 0: path = os.path.join(a, i) path = path.split('\\')[-1] os.remove('D:\Dedup\input\\' + path)
这一段代码判断文件夹里有没有已经爬取的文件,如果有就把文件删除。
def job(gw): for i in range(20): url='https://search.chinahr.com/bj/job/pn'+str(i+1)+'/?key='+gw headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'} response=requests.get(url,headers=headers) response=response.content.decode('utf-8') soup=BeautifulSoup(response,'lxml') result=soup.select('div[class="job