python爬虫面试题及答案-Python面试题爬虫篇(附答案)

最新推荐文章于 2022-01-11 10:16:02 发布

weixin_39737636

最新推荐文章于 2022-01-11 10:16:02 发布

阅读量4.1k

点赞数 2

本文涵盖了Python爬虫面试中的必答题，包括爬虫模块、数据解析、反爬机制、Scrapy框架、数据清洗、分布式爬虫等知识点。涉及到的技术包括requests、BeautifulSoup、Scrapy、Selenium、异步爬虫、机器学习等。同时，还提及了git命令、代码审查和协同开发等相关实践问题。

摘要由CSDN通过智能技术生成

第一部分必答题

注意：第31题1分，其他题均每题3分。

1，了解哪些基于爬虫相关的模块？

-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium- js逆向：pyexcJs

2，常见的数据解析方式？

- re、lxml、bs4

3，列举在爬虫过程中遇到的哪些比较难的反爬机制？

-动态加载的数据-动态变化的请求参数-js加密-代理- cookie

4，简述如何抓取动态加载数据？

-基于抓包工具进行全局搜索- 如果动态加载的数据是密文，则全局搜索是搜索不到

5，移动端数据如何抓取？

- fiddler，appnium，网络配置

6，抓取过哪些类型的数据，量级多少？

-电商，医疗器械，彩妆，新闻资讯，金融，体育赛事（参考hao123网站）-量级：- 最好不要超过100w。自己计算（页数，一页显示多少数据）

7，了解哪些爬虫框架？

- scrapy，pyspider

8，谈谈对scrapy的了解？

-功能：数据解析，持久化存储，深度爬取，分布式，关键件- 五大核心组件的作用和工作流程

9，如何解析出携带标签的局部页面数据？

最低0.47元/天解锁文章

weixin_39737636

关注

2
点赞
踩
60

收藏

觉得还不错? 一键收藏
0
评论
python爬虫面试题及答案-Python面试题爬虫篇(附答案)

第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium- js逆向：pyexcJs2，常见的数据解析方式？- re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理- co...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。