Boss直聘网爬虫基于requests 请求的源码

最新推荐文章于 2024-06-30 12:05:08 发布

feifeiyechuan

最新推荐文章于 2024-06-30 12:05:08 发布

阅读量4.2k

点赞数 5

分类专栏： # Python爬虫文章标签： Boss直聘 Boss直聘网爬虫招聘爬虫

本文链接：https://blog.csdn.net/feifeiyechuan/article/details/89106640

版权

Python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import requests
from bs4 import BeautifulSoup
import re
import time
import random


# from zhi_lian_zhao_pin
def from_Boss_ZhiPin(position_name, headers_strs, page_nums=None):
    '''

    :param position_name:   职位名称
    :param headers_strs:  请求头
    :param page_nums:   请求页数， 每页 30 条数据
    :return:  返回请求信息
    '''
    print('----- Boss直聘网启动！ -------')
    print('-- 查找职位名称：', position_name)
    print('-- 查询页数：', page_nums)
    print('-- help: 返回请求信息：{"page1": [{"position":"", "salary":"", "company_name":"", "company_info":"", "position_detailed_info":"", "position":"", }}, ****]')

    all_position_infos = {}

    # headers
    request_header = handle_strs_to_header(headers_strs)  # handle_header_str to request_header

    if (not page_nums):
        print('参数page_nums默认None，请求页数：1页')
        page_nums = 1
    if page_nums > 10:
        print('参数page_nums大于10，请求页数：1页')
        page_nums = 1

    for i in range(int(page_nums)):
        print('*******开始第', i + 1, '页请求。。。*******')
        # request
        res = requests.get(
            'https://www.zhipin.com/c101010100/?query={0}&ka=sel-city-101010100&page={1}&ka=page-{1}'.format(
                position_name, i + 1),
            headers=request_header)
        if res.status_code != 200:
            print('请求错误：', res.status_code)
            break

        soup = BeautifulSoup(res.content, 'html.parser')
        all_pos_div = soup.select('#main > div > div.job-list > ul > li > div')
        all_pos_info = [{'position': one_pos_div.select_one('div.info-primary > h3 > a > div.job-title').text,
                         'salary': one_pos_div.select_one('div.info-primary > h3 > a > span').text,
                         'company_name': one_pos_div.select_one('div.info-company > div > h3 > a').text,
                         'company_info': one_pos_div.select_one('div.info-company > div > p').text,
                         'position_detailed_href': 'https://www.zhipin.com' +
                                                   one_pos_div.select_one('div.info-primary > h3 > a')['href'] +
                                                   '?ka=' + one_pos_div.select_one('div.info-primary > h3 > a')['ka']
                         } for one_pos_div in all_pos_div]

        for one_pos_info in all_pos_info:
            position_detailed_info = ''.join([str(i) for i in BeautifulSoup(requests.get(one_pos_info['position_detailed_href'], headers=request_header).content,
                                          'html.parser').select_one(
                '#main > div.job-box > div > div.job-detail > div.detail-content > div:nth-of-type(1) > div').contents]).replace('<br/>', '\n\t').strip()
            one_pos_info['position_detailed_info'] = position_detailed_info

        all_position_infos['page' + str(i + 1)] = all_pos_info
        time.sleep(random.uniform(0, 2))
        print('--- 稍等。。。正在请求第', i + 1, '页')

    print('--- 请求成功！')
    return all_position_infos


# handle headers strs
def handle_strs_to_header(strs):
    all_lines = strs.split('\n')
    all_lines_split = [line.strip().split(':')[-2:] for line in all_lines]
    all_lines_split = [[i.strip() for i in line] for line in all_lines_split]
    headers = {line[0]: line[1] for line in all_lines_split}
    print('--- 请求头处理：headers: ', headers)
    return headers


# test
if __name__ == '__main__':
    headers_strs = r'''打开Boss直聘网，打开f12，随便找个网页请求，将里面的请求头复制进来'''  # headers str
    infos = from_Boss_ZhiPin('自然语言', page_nums=1, headers_strs=headers_strs)
    fw = open('boss_spider.txt', 'w', encoding='utf-8')
    for key, value in infos.items():
        for i in value:
            print(value)
            for k1, v1 in i.items():
                fw.writelines(str(k1) + ": " + str(v1) + '\n')
            fw.writelines('--------------------------------------\n')
        fw.writelines('========================================\n')
    fw.close()

返回测试信息：

----- Boss直聘网启动！ -------
-- 查找职位名称： 自然语言
-- 查询页数： 1
-- help: 返回请求信息：{"page1": [{"position":"", "salary":"", "company_name":"", "company_info":"", "position_detailed_info":"", "position":"", }}, ****]
--- 请求头处理：headers:  {'authority': 'www.zhipin.com', 'method': 'GET', 'path': '/c100010000/?query=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80&ka=sel-city-100010000', 'scheme': 'https', 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'zh-CN,zh;q=0.9', 'cache-control': 'no-cache', 'cookie': '_uab_collina=155382327619327898817196; sid=sem_pz_bdpc_dasou_title; __c=1554710101; __g=sem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1553823276,1554710101; lastCity=101020100; __l=l=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title&r=https%3A%2F%2Fsp0.baidu.com%2F9q9JcDHa2gU2pMbgoY3K%2Fadrc.php%3Ft%3D06KL00c00fDIFkY0n99B0KZEgs7rOJGT000002MpZ7C00000LvSFMf.THdBULP1doZA80K85yF9pywd0ZnquW63uHRdmycsnj01n1n3rfKd5RNaP1DYnDNAnbFKwjn1wRnvnYFArRDLrRujnDRvwjDv0ADqI1YhUyPGujY1nWc1P1nLPHn4FMKzUvwGujYkP6K-5y9YIZK1rBtEILILQMGCpgKGUB4WUvYE5LPGujd1uydxTZGxmhwsmdqbmgPEINqYpgw_ufKWThnqPHTknH0%26tpl%3Dtpl_11534_19713_15764%26l%3D1511840425%26attach%3Dlocation%253D%2526linkName%253D%2525E6%2525A0%252587%2525E5%252587%252586%2525E5%2525A4%2525B4%2525E9%252583%2525A8-%2525E6%2525A0%252587%2525E9%2525A2%252598-%2525E4%2525B8%2525BB%2525E6%2525A0%252587%2525E9%2525A2%252598%2526linkText%253DBoss%2525E7%25259B%2525B4%2525E8%252581%252598%2525E2%252580%252594%2525E2%252580%252594%2525E6%252589%2525BE%2525E5%2525B7%2525A5%2525E4%2525BD%25259C%2525EF%2525BC%25258C%2525E6%252588%252591%2525E8%2525A6%252581%2525E8%2525B7%25259F%2525E8%252580%252581%2525E6%25259D%2525BF%2525E8%2525B0%252588%2525EF%2525BC%252581%2526xp%253Did(%252522m3223737539_canvas%252522)%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FH2%25255B1%25255D%25252FA%25255B1%25255D%2526linkType%253D%2526checksum%253D92%26ie%3Dutf-8%26f%3D8%26tn%3Dbaidu%26wd%3Dboss%25E7%259B%25B4%25E8%2581%2598%26oq%3D%2525E6%252599%2525BA%2525E8%252581%252594%2525E6%25258B%25259B%2525E8%252581%252598%26rqlang%3Dcn%26inputT%3D5694%26bs%3D%25E6%2599%25BA%25E8%2581%2594%25E6%258B%259B%25E8%2581%2598&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title%26city%3D101020100; JSESSIONID=D725927E91BBB52118882DFBB71E2A8A; __a=36581951.1553823272.1553823288.1554710101.36.3.18.18; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1554710300', 'pragma': 'no-cache', 'https': '//www.zhipin.com/c101010100/?query=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80&ka=sel-city-101010100', 'upgrade-insecure-requests': '1', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
*******开始第 1 页请求。。。*******
--- 稍等。。。正在请求第 1 页
--- 请求成功！
30
{'position': '自然语言处理', 'salary': '50k-100k', 'company_name': '京东集团', 'company_info': '电子商务已上市10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/7e2a52a8a4c9bbb01nNy3ty0E1I~.html?ka=search_list_1', 'position_detailed_info': 'AI平台部-自然语言处理算法leader\n对话系统\n机器翻译\nchatbot\n语义理解\nnlp相关都可以\n主要研究方向为：自然语言处理、文本分析、或相关机器学习方向，非常欢迎从事深度学习、机器学习方向研究且有兴趣在文本处理方向做落地实践的同学。其他机器学习方向，也欢迎投递简历。\n1、负责自然语言处理相关底层技术和平台的研究与实现； \n2、为推荐、搜索、问答等功能设计和实现高质量的基础特征（Category,Topic, Entity等）；\n3、对用户以及用户的反馈（动作、评论）建模，快速定位问题与收集数据，设计解决方案，提升产品体验；\n4、负责面向问答技术的语义分析、知识库建立、信息抽取等事宜的方法和实践； \n5、负责相关性，排序模型特征，query改写，query纠错，相关query推荐等搜索相关策略的优\n岗位要求：\n1、3~5年以上自然语言处理经验包括语法分析、句法分析、语义表示、知识抽取、搜索引擎、对话系统等； \n2、扎实的编程基础，至少精通一种编程语言，如C/C++，Java，python等； \n3、熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题； \n4、有对话系统，聊天机器人，知识图谱构建、文本语义分析、深度学习、海量数据挖掘研发经验优先。 \n5、了解深度学习在自然语言处理方向的相关算法和框架，有Tensorflow, Theano, Keras项目实战经验的优先；6，计算机、数理统计、自然语言处理、机器学习及相关专业优先'}
{'position': '自然语言处理', 'salary': '20k-30k', 'company_name': 'Boss直聘', 'company_info': '人力资源服务D轮及以上1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/beb9dc51fc91c39e1nZz2tS6FFQ~.html?ka=search_list_2', 'position_detailed_info': '掌握并能熟练运用自然语言处理相关算法与技术处理文本数据，有分词、文本分类、文本匹配、实体识别等项目经验。'}
{'position': '自然语言处理', 'salary': '20k-40k', 'company_name': '中译语通', 'company_info': '数据服务C轮500-999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/8cbffd8eb9aed6e71Xd_2NW-FVc~.html?ka=search_list_3', 'position_detailed_info': '任职要求：\n自然语言处理中的应用研究，例如文本分类、分词、词性标注、命名实体识别、情感分析、QA、句法语义分析、搜索引擎等。\n岗位要求：\n1、熟悉自然语言处理、机器学习相关理论和算法，具备较好的算法基础。\n2、精通至少一种编程语言（Python、C/C++、Java、Lua等）。\n3、从事过自然语言处理相关工作者优先；\n4、在相关顶级学术会议期刊发表过相关论文者优先。'}
{'position': '自然语言处理', 'salary': '25k-50k', 'company_name': '阿里巴巴集团', 'company_info': '互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/d103db132793eb6b1nd-29S4FVE~.html?ka=search_list_4', 'position_detailed_info': '阿里巴巴-智能服务事业部-人工智能/算法\n岗位描述:\n随着移动互联网巅峰的到来以及机器学习技术的突飞猛进，整个互联网行业未来的竞争力已经从高并发、高性能全面转向人工智能领域，人工智能不断向传统领域发起冲击。该职位将负责领导阿里人工智能方向的商业化技术创新，带领人工智能研究和开发团队，打造全球领先的智能人机交互系统，构建人工智能在电商领域的生态，服务与全球20亿消费者、上千万中小企业。\n岗位要求:\n•\xa0 在算法领域，包括人工智能、机器学习、数据挖掘、自然语言处理、图像处理、语音识别等其中一个或多个领域有深厚的积累\xa0\xa0\n•\xa0 熟悉人工智能领域前沿技术，例如深度学习，对人工智能领域在学术界以及工业界有前瞻性，对未来三到五年该领域的方向有清晰的认识和把握\xa0\xa0\n•\xa0 具备一定的行业影响力，能够通过行业影响力构建学术领域与工业领域的桥接，提升团队在学术领域以及工业领域的影响力\xa0\xa0\n•\xa0 充满正能量，具有良好的团队合作意识，对技术饱有热情\xa0\xa0\n•\xa0 有chatbot相关经验的优先'}
{'position': '自然语言处理专家', 'salary': '30k-50k', 'company_name': '阿里巴巴集团', 'company_info': '互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/3be1997b848d98761nx-2Nm0GFs~.html?ka=search_list_5', 'position_detailed_info': '职位名称：搜索算法研发专家/高级专家\n团队：阿里大文娱UC神马搜索-搜索算法\n职位描述：\n\t你即将加入阿里巴巴大文娱板块下核心技术部门，负责解决搜索业务中涉及的数据挖掘、机器学习、数据索引、数据召回、搜索排序，以及自然语言理解等技术问题；\n\t你需要挖掘分析海量用户行为数据，参与特征工程（设计、抽取、验证、筛选），并阅读最新的论文文献，优化统计学习和深度学习模型，以持续提升搜索产品的体验和商业价值；\n\t深入理解搜索产品和业务的同时，你还需要参与在线搜索服务研发，使最前沿的算法可以在线上高并发低延迟场景落地应用，以服务数以亿计的神马搜索用户。\n \n岗位要求：\n\t1. 计算机或数学相关专业本科以上学历；\n\t2. 具有良好的沟通能力、团队合作意识、逻辑思维能力和执行力；\n\t3. 优秀的分析问题和解决问题的能力；\n\t4. 掌握常用的搜索推荐和机器学习算法，如逻辑回归、GBDT等；\n\t5. 熟练掌握一门编译型语言(C++/Java)，以及一门脚本语言如Python的开发，有扎实的编程能力；\n\t6. 符合以下条件之一者优先：\n\t   (1) 熟悉搜索引擎产品的架构和技术细节、有分布式系统、搜索算法、或者推荐系统研发经验者优先；\n\t   (2) 在机器学习、数据挖掘领域有深入理解，有参与大型项目经验者优先；\n\t   (3) 对深度学习、自然语言理解前沿技术有深入理解，并有项目经验者优先。'}
{'position': '自然语言处理', 'salary': '30k-60k', 'company_name': 'VIPKID', 'company_info': '移动互联网D轮及以上10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/60980ab2848c2d021Xx53t-0GFc~.html?ka=search_list_6', 'position_detailed_info': '1、为推荐、搜索、问答等功能设计和实现高质量的基础特征（Category,Topic, Entity等）。\n2、对用户以及用户的反馈（动作、评论）建模，快速定位问题与收集数据，设计解决方案，提升产品体验。\n职位要求：\n1、具备强悍的编码能力，有扎实的数据结构和算法功底。\n2、熟悉Linux开发环境，熟悉Python/Java/C++语言。\n3、 熟悉自然语言处理常见算法与模型（语言模型、MaxEnt/CRF, pLSA/LDA, w2v, CNN/RNN等）。\n4、参与或主导过NLP项目（如中文分词、文本分类、文本聚类）。\n5、发表过高水平学术会议论文者优先，对使用NLP技术解决实际问题尤为感兴趣者优先。\n投递'}
{'position': '自然语言处理算法专家', 'salary': '30k-60k', 'company_name': '阿里巴巴集团', 'company_info': '互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/7388bdca86f398a11XNy3t6-EFQ~.html?ka=search_list_7', 'position_detailed_info': '智能人机对话开始进入急速发展期，无论是各个互联网巨头的布局还是学术论文数量，都在有力的证明这种趋势。该职位将致力于自然语言的基础研究和开发（NLP）、自然语言的语义理解、以及人机对话系统研究和应用，打造全球领先的智能人机对话交互平台（阿里小蜜、店小蜜、云小蜜、钉钉小蜜、政务小蜜等），服务于各行各业的企业/组织。\xa0\n研发方向包括但不限于：\u20281. 自然语言理解算法和技术的研究；\xa0\u20282. 人机对话模型的算法和技术的研究；\n3. 知识图谱和智能问答相关算法和技术的研究；\xa0\u20284. 针对人工智能客服机器人的应用和产品研发；\n虚位以待的方向\n自然语言理解\n职责：\n（1）自然语言的深层理解算法研究\n（2）自然语言理解的鲁棒性研发\n（3）自然语言理解的冷启动研发\n（4）自然语言理解的迁移学习研发\n（5）基于对话上下文的自然语言理解研发\n要求：\n（1）自然语言处理、文本挖掘、机器学习、模式识别等相关专业的硕士/博士，在该领域有很好的技术积累；\n（2）相关领域2年以上的研发经验；\n（3）较强的C/C++/java编程能力，熟悉perl，python等语言；\n（4）很强的使命感和自我驱动力；\n（5）良好的团队合作意识，对技术饱有热情；\n（6）有语言理解、对管管理等对话机器人技术研发经验者优先；\n（7）有ACL、EMNLP、AAAI等相关顶会论文者优先；'}
{'position': '自然语言处理', 'salary': '15k-18k', 'company_name': '中国知网', 'company_info': '互联网不需要融资1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/8de5ca855def5a001XZ93d--FlI~.html?ka=search_list_8', 'position_detailed_info': '1.国家统招本科以上学历\n2.熟悉自然语言处理领域\n3.了解语义理解者优先\n自然语言：\n精通Java、Python、C++（跨平台）中的一门或多门语言，了解多语言混合调用的方法方式\n熟练使用主流关系型数据库Mysql、Oracle、SQL SERVER中的一种或多种的安装、部署、配置、开发、性能优化\n熟悉主流分词引擎的使用、特点、优劣\n熟悉常用分类、聚类算法、神经网络的原理和编码\n有词向量，词关系抽取自动构建的经验更佳\n有知识图谱构建与基于知识图谱的问答与推理经验者优先\n薪资待遇从优\n福利待遇好'}
{'position': '自然语言处理', 'salary': '20k-30k', 'company_name': '阿里巴巴集团', 'company_info': '互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/c670d7a4ac98e8aa1nZ-0tW-E1U~.html?ka=search_list_9', 'position_detailed_info': '工作要求：\n1. 熟悉nmt框架和seq2seq learning。在文本生成和文摘等领域有较深的理解。\n2. 熟悉hadoop/SQL，熟练使用mapreduce。\n3. 扎实的数据结构功底，熟练使用java/c++/python等。\n4. 在ACL/KDD/ICML/IJCAI/AAAI/EMNLP 等会议发表过论文者优先。\n5. 熟练使用tensor flow/theano/mxnet/torch 等。\n6. 扎实的nlp基础，对文本分类，聚类，topic modeling，rnn，cnn，lstm，crf等模型有比较深入的了解。'}
{'position': '自然语言处理', 'salary': '30k-40k', 'company_name': '云途', 'company_info': '广告营销已上市1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/0a0381fd7427eb530nB53tW9Ew~~.html?ka=search_list_10', 'position_detailed_info': '岗位职责：\n1. 负责分布式推荐系统引擎的架构设计和优化；\n2. 结合业务需求，参与用户画像建模和挖掘，搭建推荐系统并持续提升个性化推荐的效果；\n3. contentbase的文本挖掘和自然语言处理；\n任职要求：\n1. 重点本科或本科以上学历，计算机、数学相关专业，有2年以上的相关经验；\n2. 精通Linux环境下的代码开发，熟练使用调试工具，有推荐系统或搜索排序研发经验；\n3. 具备良好的编程能力和代码风格，熟练掌握一门强类型语言java scala，并至少掌握一门脚本语言python。\n4. 对常用的推荐算法有较深入了解，有实际算法调优经验。 \n5. 扎实的计算机基础（数据结构、算法、数据库等），熟悉linux开发环境，熟悉java语言和Scala语言；\n6. 有丰富的数据挖掘、机器学习（svm、神经网络、随机森林等）、分布式计算（hadoop、spark, storm等）的实际工作经验，参与过诸如广告点击率预估、个性化推荐模型、搜索排序等项目或在国际期刊发表过机器学习相关论文者优先；\n7、熟悉图计算并有实际经验优先\n8、熟悉deeplearning深度学习有实际经验优先\n9、有自然语言处理经验优先\n10. 良好的团队合作和沟通能力。'}
{'position': '自然语言处理', 'salary': '35k-50k', 'company_name': '阿里巴巴集团', 'company_info': '互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/b1365c6c3a95fe691XJ42Ni5EVY~.html?ka=search_list_11', 'position_detailed_info': '默认是社招，当然校招也需要，博士优先，优秀硕士生也需要，如果您很优秀，欢迎投递。多谢\n工作地址：北京 - 阿里中心\n公司：阿里巴巴集团 - 优酷事业部\n简历投递邮箱 ***** （格式为邮件标题：姓名+联系电话，附件为同样格式pdf）\n【岗位职责】\n1.负责query分析，文本分类，语义理解等方向的研发工作；\n2.负责视频搜索场景语音交互技术研发，以及用NLP技术在视频场景新的产品形态；\n3.探索、使用业界前沿的方法提升现有NLP技术。\n【岗位要求】\n1.有NLP领域的理论基础和实践经验，并有深度学习经验者优先；\n2.熟悉C++、Python、SQL，熟练使用常用算法和数据结构，对算法有较强的实现能力；\n3.有很强的自学能力，对搜索引擎、词法分析、语音交互等方向有经验优先；\n4.具有优秀的分析问题和解决问题的能力，对解决挑战性问题充满激情；\n5.具有良好的沟通能力、坦诚直接、重视团队合作；'}
{'position': '自然语言处理', 'salary': '15k-30k', 'company_name': '爱奇艺', 'company_info': '互联网已上市1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/66e7d927b80d26fc1XB93dS4EFY~.html?ka=search_list_12', 'position_detailed_info': '智能问答方面的工作，问题的语义理解，对话状态的管理，纠错和新问题发现等工作'}
{'position': '自然语言处理', 'salary': '30k-40k', 'company_name': '千里马招标网', 'company_info': '互联网不需要融资500-999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/e9abe2010589d7851HV809W5EFQ~.html?ka=search_list_13', 'position_detailed_info': '重要！！请看岗位匹配关键词：\n1.NLP实际从业经历至少在5年以上；\n2.必须熟练掌握以下技能点：\n文本分析、实体提取、聚类、TextRank算法、Word2Vector；\n3.需统招本科及以上学历。\n岗位职责：\n1.承担自然语言理解，深度学习等方面的核心算法研究、项目工作；\n2.利用NLP/ML等相关技术和算法，提供文本分析相关的基础方案与服务；\n3.针对海量文本内容进行中文分词、语义识别、自动聚类等文本挖掘工作。\n任职要求：\n1.在自然语言处理（NLP)、知识图谱、机器学习、深度学习领域有不少于3年研发经验；\n2. 熟练掌握使用TextRank算法、Word2Vector、实体提取等相关算法与技术；\n3. 熟练掌握各种深度学习工具；\n4. 有较强工程实现和优化能力，尤其是系统架构层面有深入的理解。'}
{'position': '自然语言处理算法工程师', 'salary': '35k-60k', 'company_name': '小米', 'company_info': '互联网已上市10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/d44025ac029414540X1709m0EA~~.html?ka=search_list_14', 'position_detailed_info': '自然语言处理算法工程师\n工作职责:\n1. 负责自然语言处理相关的工作, 包括但不限于文本分类、命名实体识别、句法分析、信息抽取、知识库构建、主题词识别、自动摘要、智能问答、语义理解、对话生成、话题推荐等; \n2. 将顶尖的人工智能算法应用到各种挑战性的现实场景. \n工作要求:\n1. 熟悉常见的机器学习算法（逻辑回归、SVM、决策树、贝叶斯以及各种深度学习网络包括CNN、RNN、LSTM等）;  \n2. 熟练使用TensorFlow,  Theano,  Torch,  Caffe,  MXNet等深度学习框架; \n3. 熟练掌握Java,  Python等其他编程语言; \n4. 在深度学习国际顶级会议或者期刊上发表论文、相关国际比赛获奖、及有相关专利者优先; \n5. 有Hadoop,  MapReduce,  Spark,  Storm,  HBase,  Kafka等开发经验者优先.'}
{'position': '自然语言处理', 'salary': '20k-40k', 'company_name': '知云网', 'company_info': '数据服务天使轮20-99人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/42ab7463977ddb901nx609-7FFs~.html?ka=search_list_15', 'position_detailed_info': '自然语言处理工程师\n工作地点：北京\n1、本科以上学历，计算机科学与技术专业，2年以上的java项目开发经验；\n2、具2年以上自然语言领域的工作经验，对情感分析、文本分类、文本聚类、新词发现、话题分析、事件发现等方面有深入研究；\n3、有很强的分析和解决问题的能力，思路清晰，学习能力强，善于归纳、总结、推理；\n4、有责任心，喜欢分析和解决问题，对NLP领域感兴趣。'}
{'position': '自然语言高级研发工程师', 'salary': '30k-31k', 'company_name': '腾讯', 'company_info': '互联网已上市10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/2f7f8a52c6ff3b5f1nB_3Ni0FFM~.html?ka=search_list_16', 'position_detailed_info': '其他信息：\n此职位有leader的需求，薪资可谈。\n工作职责：\n负责自然语言处理和个性化推荐等相关研究工作；\n负责面向垂直行业的知识体系构建和智能机器人研发等工作；\n负责调研深度学习等前沿的技术，真正理解用户的意图。\n工作要求：\n计算机相关专业硕士及以上学历，3年以上的互联网工作经验；\n熟练掌握C/C++和python，熟练使用linux环境；\n熟悉常用的自然语言处理、机器学习、数据挖掘算法，并有相关算法调优经验；\n参与过搜索、推荐等线上系统者优先；\n具备良好的团队合作和沟通能力；\n责任心强，积极主动，勇于接受挑战，具有创新精神。'}
{'position': '自然语言处理', 'salary': '20k-40k', 'company_name': 'vivo', 'company_info': '移动互联网不需要融资10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/eaf052e3546ec2c91XB42tS-Elo~.html?ka=search_list_17', 'position_detailed_info': '岗位职责：\n1、负责自然语言处理相关产品和项目的技术方案设计、开发实现、效果评估和持续优化；\n2、负责研究机器学习与深度学习在自然语言处理领域的端到端解决方案并落地；\n3、负责智能搜索、问答、对话相关的算法与系统实现。\n任职要求：\n1、本科及以上学历，3年以上开发经验，其中至少1年及以上自然语言处理相关项目开发经验；\n2、有丰富的C++、Java或Python等主流语言的编程经验，扎实的算法与数据结构功底，优秀的机器学习基础，良好的数学和统计基础；\n3、有良好的自然语言处理理论和方法基础，掌握词法分析、句法分析、词法分析、分类、聚类、信息检索、文本相似度计算等知识领域及其工程实现；\n4、熟悉Hadoop，Spark，Tensorflow等，对机器学习和深度学习在NLP领域的应用有一定的经验和个人见解，能从业务场景中精确识别问题模式并应用相应的模型和算法来解决问题，并有能力建立合理的评价指标来持续优化；\n5、有智能搜索、问答、多轮对话或知识图谱相关经验优先；有优秀论文发表者优先。\n6、良好的理解与表达能力，优秀的团队合作和自我驱动能力。'}
{'position': '自然语言处理工程师', 'salary': '17k-34k', 'company_name': '腾讯', 'company_info': '互联网已上市10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/efed20c391117dc71XF-2d2-F1A~.html?ka=search_list_18', 'position_detailed_info': '岗位职责：\n1. 使用机器学习、文本挖掘等技术，对微信朋友圈、公众平台文本数据进行分析挖掘；\n2. 基于微信大数据构建吃喝玩乐相关的用户生活画像体系和POI商户画像体系；\n3. 负责用户吃喝玩乐相关搜索查询意图语义分析理解和推荐排序特征的挖掘；\n岗位要求：\n1. 计算机相关专业，扎实的数据结构和算法功底，精通至少一种编程语言：C、C++、python；\n2. 熟悉常用的NLP、文本挖掘、机器学习算法，有深度学习背景者优先；\n3. 熟悉Linux开发环境，熟悉Hadoop、Spark等大数据计算平台；\n4. 两年以上自然语言处理或数据挖掘相关工作经验，有搜索、推荐项目背景者优先；\n5. 对以上工作内容具有激情，良好的沟通能力，有团队精神；'}
{'position': '自然语言处理专家', 'salary': '30k-60k', 'company_name': '阿里云', 'company_info': '互联网已上市1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/0c47c5cb45b0be1e1HZy2dW6E1c~.html?ka=search_list_19', 'position_detailed_info': '职位描述\n1、本科及以上学历，计算机、数学、统计学等方向，有扎实的数理基础；2年以上相关工作经验；\n2、精通常用机器学习和NLP算法，如DL、LSTM、分词、主题模型、命名实体识别、事件发现、舆情分析；\n3、熟练掌握Python、Java、C++等常用编程语言，能够独立完成大规模数据处理、模型算法的一系列研发工作。\n4、正能量、乐观、自驱，善于沟通、合作、影响他人，推动算法在业务中的落地。'}
{'position': '自然语言处理研发工程师', 'salary': '20k-40k', 'company_name': '滴滴出行', 'company_info': '移动互联网D轮及以上1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/c8b603300d2b19641XJ82dy4E1I~.html?ka=search_list_20', 'position_detailed_info': '岗位职责：\n从事人工智能、自然语言处理、语义理解等算法研究和系统研发。\n任职要求：\n1. 重点大学硕士及以上学位； \n2. 熟悉机器学习相关算法；\n3. 熟悉常见自然语言处理算法，对于语义理解有经验者优先；\n4. 熟悉和掌握C/C＋＋ 和脚本语言编程(如Shell, Python, Perl, Lua等) ； \n5. 具有良好的沟通能力，和良好的团队合作精神。'}
{'position': '自然语言算法工程师', 'salary': '40k-80k', 'company_name': '奇虎360', 'company_info': '互联网已上市1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/f9dc83ab1838733a1nJ629y8FVM~.html?ka=search_list_21', 'position_detailed_info': '岗位职责：\n-大数据量的用户行为数据的处理、清洗和挖掘，并持续迭代优化推荐策略\n-从数据中发现现有系统和算法的不足，提出改进的算法并推动实现\n-追踪业内前沿技术，结合业务特点，探索将前沿的算法技术应用于实际业务\n任职要求：\n-精通Java/C++/Python/perl（精通任意一种语言即可），有2年以上数据挖掘的经验\n-较好的数据挖掘、个性化推荐或自然语言处理经验，熟悉常用的机器学习算法\n-有较多的程序开发经验，对数据结构和算法知识应用熟练；有大数据处理经验者更佳；\n-良好的沟通和推动能力，主动性强，对个性化推荐有一定的兴趣'}
{'position': '算法/自然语言经理', 'salary': '25k-50k', 'company_name': '多牛传媒', 'company_info': '广告营销已上市500-999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/23aa72fd738843831XJ53di7E1I~.html?ka=search_list_22', 'position_detailed_info': '岗位职责：\n1. 负责算法团队的管理工作，利用自然语言处理相关技术， 解决产品需求中的实际问题；\n2.业务数据的清洗、挖掘、整合与分析模型的建立、优化和评估；\n3.负责产品数据分析,数据挖掘相关的算法、应用的设计与开发；\n4.应用机器学习、自然语言处理、深度学习等技术， 针对海量文本数据进行相关的模型训练和应用；\n5.追踪算法前沿技术，结合业务需求，探索将前沿的算法技术应用于实际业务中。\n任职要求：\n1、计算机、统计、数学及相关专业硕士及以上学历，五年以上算法工作经验；\n2、具备自然语言处理及机器学习方面的基础理论知识；\n3、熟悉常用的编程语言（如Python、Java等），有扎实的编程能力；\n4、思路清晰，主动性强，有很强的自我驱动力；\n5、责任心强，能承受工作压力，良好的沟通交流能力，能迅速融入团队；\n6、熟悉常用分词算法、情感分析、本体识别、特征提取、文本分类预测、文本聚合算法；\n7、熟悉RNN、CNN等深度学习算法及其常用技术如TensorFlow, word2vec 等 。'}
{'position': '自然语言处理工程师', 'salary': '30k-50k', 'company_name': 'Boss直聘', 'company_info': '人力资源服务D轮及以上1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/98178be5749640211nN609y-ElA~.html?ka=search_list_23', 'position_detailed_info': '职责：\n1.负责BOSS直聘数千万用户和企业文本大数据分析系统的核心算法的创新、研究和实现；\n2.应用机器学习、NLP和深度学习等前沿技术挖掘BOSS直聘海量文本数据（简历和企业信息等）；\n3.参与大数据产品和服务的产品设计和技术架构设。\n要求：\n1.计算机、自然语言处理、模式识别或机器学习相关专业本科及以上学历，两年以上自然语言处理相关工作经验；\n2.有机器学习和自然语言处理包括分词、词性标注、语法分析、语义分析和理解、问答和对话系统等相关开发经验优先；有一定的相关算法经验优先；\n4.扎实的编程基础，熟悉C++和Java语言，有海量数据处理经验者优先；\n5.优秀的逻辑思维和独立思考能力，对数据有敏锐的直觉；\n6.优秀的学习能力，分析和解决问题的能力；\n7.对技术和工作充满热情，热爱挑战；\n8. 英语阅读能力好。'}
{'position': '自然语言处理工程师', 'salary': '20k-30k', 'company_name': '汽车之家', 'company_info': '互联网已上市1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/8bbda24b1977dd541ndz2di_E1s~.html?ka=search_list_24', 'position_detailed_info': '职责描述：\n1. 负责智能问答系统的开发；\n2. 负责汽车领域知识图谱的构建；\n3. 负责自动摘要、query改写、意图识别等文本挖掘工作。\n任职要求：\n1. 计算机相关专业硕士研究生及以上学历，从事NLP相关工作两年以上经验；\n2. 掌握NLP基本技术，如分词、文本分类、关键词提取、文本纠错等；\n3. 具备良好的C++/java/python/GO编程能力；\n4. 熟悉深度学习在NLP的应用，掌握tensorflow/keras/pytorch等开源工具；\n5. 有语义相似度计算、智能问答系统、知识图谱构建相关经验的优先考虑。'}
{'position': '自然语言处理工程师', 'salary': '20k-40k', 'company_name': '超凡股份', 'company_info': '咨询不需要融资1000-9999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/9080770834fb08071Hd62NS8Fls~.html?ka=search_list_25', 'position_detailed_info': '岗位职责：\n1、从事专利相关自然语言处理（NLP）技术的研究，提供专利文本数据分析的相关方案实现\n2、负责基础自然语言处理、语义理解技术平台搭建；\n3、负责词法分析、词性标注、中文分词、自动对话、语义挖掘和语言逻辑等相关研究工作；\n4、负责专利语料库的采集、整理、加工、维护和优化工作；\n5、负责进行专利文件的语义分析、知识图谱建设等；\n6、跟踪研究NLP（自然语言处理）和机器学习等人工智能技术在科技信息分析处理方面的发展 趋势和应用方向。\n岗位要求：\n1、计算机/数学及相关专业，本科及以上学历并具备自然语言处理/机器学习/数据挖掘的项目经验；\n2、熟练掌握自然语言处理领域的基础理论和方法，如词法分析，信息抽取，文本分类/聚类，主题模型、语义相似度计算，摘要及关键词提取，情感分析等NLP基础技术；\n3、具备扎实的算法基础和机器学习的基本原理，对机器学习的一般模型如分类、聚类关联析、预测等模型熟悉（LR，CART，SVM，NN，Bayesian，PCA，LDA等）；\n4、理解一些常用的特征选择和矩阵分解的算法，熟悉CNN,RNN/LSTM等基本深度学习算法NLP领域应用者优先；\n5、具有较强编程能力，精通C/C++或Java，熟练掌握一门脚本语言Shell/Perl/Python；\n6、有专利数据分析、数据处理经验者优先。'}
{'position': '自然语言处理', 'salary': '50k-80k', 'company_name': '忽客时代（北京）...', 'company_info': '移动互联网不需要融资100-499人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/b7be8c7f4bacbf091Xxz29W_EVI~.html?ka=search_list_26', 'position_detailed_info': '1、负责NLP、深度学习、机器翻译、机器学习等方向的技术研发工作；\n2、负责机器翻译系统研发工作、\n3、负责QUERY分析相关工作；\n4、负责数据的挖掘与处理相关工作。'}
{'position': '自然语言工程师', 'salary': '30k-50k', 'company_name': '好大夫在线', 'company_info': '互联网D轮及以上500-999人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/79bc64e5b0d752251HZz2N60Elo~.html?ka=search_list_27', 'position_detailed_info': '工作职责：\n1. 利用自然语言处理技术和机器学习算法,对文本数据进行挖掘和分析；\n2. 跟进前沿的视觉算法和深度学习技术,对视觉数据进行分析和研究；\n3. 构建通用的分布式环境下机器学习系统，快速支持算法应用的落地实践；\n4. 探索医疗AI领域。\n任职要求：\n1.计算机、数学、自然语言处理、机器学习及相关专业硕士及以上学历；\n2.熟练掌握TensorFlow，pyTorch，Caffe，Keras中一种及以上；\n3.对常用的机器学习/深度学习算法有深入理解，例如：CNN/RNN/RESNET/YOLO 等；\n4.熟悉 linux 开发环境，掌握至少一门编程语言，如 C++、Python等；\n5.有NLP或图像领域的工作或研究经验，搭建过实际线上系统者优先；\n6.表达能力强，乐观向上，自我驱动力强，具备敏锐的洞察力和良好的抗压能力。'}
{'position': '自然语言处理研究员', 'salary': '15k-30k', 'company_name': 'BOE', 'company_info': '计算机软件已上市10000人以上', 'position_detailed_href': 'https://www.zhipin.com/job_detail/399d474a55722f911nZy09i5FlU~.html?ka=search_list_28', 'position_detailed_info': '工作职责：\n1. 负责智能问答系统、个性化人机交互中自然语言处理、人工智能方向的技术研发；\n2. 探索非结构化文本理解、知识抽取、逻辑推理等前沿技术问题的实用化解决方案。\n任职资格：\n1. 硕士以上学历、计算机、电子通信等相关专业；\n2. 掌握Python/Java/R等程序开发语言；\n3. 了解基本的自然语言处理技术，词法分析、句法分析、以及语义分析（semantic parsing）等；\n4. 会使用NLTK、Stanford CoreNLP；\n5. 了解基本的机器学习算法的运用。'}
{'position': '自然语言处理', 'salary': '35k-70k', 'company_name': '忽客时代（北京）...', 'company_info': '移动互联网不需要融资100-499人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/ce197a8a67846eda1XJ-3tm9GVM~.html?ka=search_list_29', 'position_detailed_info': '1、负责NLP、深度学习、机器翻译、机器学习等方向的技术研发工作；\n2、负责机器翻译系统研发工作、\n3、负责QUERY分析相关工作；\n4、负责数据的挖掘与处理相关工作。'}
{'position': '自然语言处理', 'salary': '20k-40k', 'company_name': '真相网络科技', 'company_info': '互联网A轮20-99人', 'position_detailed_href': 'https://www.zhipin.com/job_detail/b75cbce5f75e0a3b1nF82t20EVI~.html?ka=search_list_30', 'position_detailed_info': '人工智能方向，自然语言处理，识别，情感分析，机器学习等，有图像经验更优'}

注意：

需要手动去复制当前的Boss直聘的请求头信息信息，如下：

打开Boss直聘网，打开f12，随便找个网页请求，将里面的请求头复制进来

复制选中代码，放入测试代码中的headers_strs 参数后的三引号中：

feifeiyechuan

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Boss直聘网爬虫基于requests 请求的源码

import requestsfrom bs4 import BeautifulSoupimport reimport timeimport random# from zhi_lian_zhao_pindef from_Boss_ZhiPin(position_name, headers_strs, page_nums=None): ''' :param pos...
复制链接

扫一扫