python爬虫面试题及答案-Python面试题爬虫篇(附答案)

本文涵盖了Python爬虫面试中的必答题,包括爬虫模块、数据解析、反爬机制、Scrapy框架、数据清洗、分布式爬虫等知识点。涉及到的技术包括requests、BeautifulSoup、Scrapy、Selenium、异步爬虫、机器学习等。同时,还提及了git命令、代码审查和协同开发等相关实践问题。
摘要由CSDN通过智能技术生成

第一部分 必答题

注意:第31题1分,其他题均每题3分。

1,了解哪些基于爬虫相关的模块?

-网络请求:urllib,requests,aiohttp-数据解析:re,xpath,bs4,pyquery-selenium- js逆向:pyexcJs

2,常见的数据解析方式?

- re、lxml、bs4

3,列举在爬虫过程中遇到的哪些比较难的反爬机制?

-动态加载的数据-动态变化的请求参数-js加密-代理- cookie

4,简述如何抓取动态加载数据?

-基于抓包工具进行全局搜索- 如果动态加载的数据是密文,则全局搜索是搜索不到

5,移动端数据如何抓取?

- fiddler,appnium,网络配置

6,抓取过哪些类型的数据,量级多少?

-电商,医疗器械,彩妆,新闻资讯,金融,体育赛事(参考hao123网站)-量级:- 最好不要超过100w。自己计算(页数,一页显示多少数据)

7,了解哪些爬虫框架?

- scrapy,pyspider

8,谈谈对scrapy的了解?

-功能:数据解析,持久化存储,深度爬取,分布式,关键件- 五大核心组件的作用和工作流程

9,如何解析出携带标签的局部页面数据?

  • 2
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值