python3 爬取招聘网实战

最新推荐文章于 2019-12-21 19:36:31 发布

VIP文章木木生

最新推荐文章于 2019-12-21 19:36:31 发布

阅读量219

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_42676477/article/details/90317408

版权

废话不多说，直接贴代码！！！是可以用的，可能需要稍微改改就好了~
import time
import requests
import pyquery
import pymysql
import type
from ceil import page
from select import select_post

def main():

url = 'http://www.chinahr.com/{0}/jobs/{1}' 
try:
    for m in type.zhiye_dict.values():
        for k, industry in type.citys_dict.items():
            urls = url.format(industry, m)
            print('网址链接>>>', urls)
            zhineng_type = urls[-5:]  # zhineng_leibie
            zhineng_type_info = type.zhineng_dict[zhineng_type]   # 这里返回岗位的分类
            print('职能代码>>>', zhineng_type)
            print('职能类别>>>', zhineng_type_info)

            job_type = select_post(zhineng_type_info)  # 这里是调用函数select_post()返回 岗位的多级职能分类

            soup = requests.get(urls)
            doc = pyquery.PyQuery(soup.text)
            page_count = page(doc)
            print(page_count)
            if page_count:
                new_url = urls + '/{}/'
                for page_go in range(int(page_count)):
                    info = new_url.format(page_go + 1)
                    print('加了页数的网址>>>', info)
                    soup = requests.get(info)
                    doc = pyquery.PyQuery(soup.text)
                    time.sleep(0.5)
                    content = doc.find('div[id="searchList"]').find('div[class="resultList"]')
                    content_list = content.find('div[class="jobList"]').items()      # 获取每个公司的位置
                    href_list = []
                    for index in content_list:
                        href = index.attr('data-url')   # 获取每个公司的链接
                        href_list.append(href)
                        # print('获取公司URL测试6666666', href_list)
                        # people_info(href_list)    # 此函数是被调用获取公司发布的岗位详细信息
                        # time.sleep(0.2)
                        # people_info_again(href_list)  # 此函数同样是被调用获取公司发布的岗位详细信息
                        index_href_id = href_list[-1]
                        print('-1:', index_href_id)
                        auto = requests.get(index_href_id)
                        doc = pyquery.PyQuery(auto.text)
                        company_name = doc.find('div[class="job-company jrpadding"]').find('h4').text()
                        # print('公司名称>>>', company_name)
                        _industry = doc.find('div[class="job-company jrpadding"]').find('table').find('tbody').find('tr').eq(1).find('td').eq(1).text()
                        industry = doc.find('div[class="company_intro  jpadding mt15"]').find('div[class="compny_tag"]').find('span').eq(0).text()
                        # print('行业>>>', industry)
                        _size = doc.find('div[class="job-company jrpadding"]').find('table').find('tbody').find('tr').eq(2).find('td').eq(1).text()
                        size_ = doc.find('div[class=&#

最低0.47元/天解锁文章

木木生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python3 爬取招聘网实战

废话不多说，直接贴代码！！！是可以用的，可能需要稍微改改就好了~import timeimport requestsimport pyqueryimport pymysqlimport typefrom ceil import pagefrom select import select_postdef main():url = 'http://www.chinahr.com/...
复制链接

扫一扫