python爬虫面试真题及答案_Python面试题爬虫篇(附答案)

0|1第一部分 必答题

注意:第31题1分,其他题均每题3分。

1,了解哪些基于爬虫相关的模块?- 网络请求:urllib,requests,aiohttp

- 数据解析:re,xpath,bs4,pyquery

- selenium

- js逆向:pyexcJs

2,常见的数据解析方式?- re、lxml、bs4

3,列举在爬虫过程中遇到的哪些比较难的反爬机制?

- 动态加载的数据

- 动态变化的请求参数

- js加密

- 代理

- cookie

4,简述如何抓取动态加载数据?- 基于抓包工具进行全局搜索

- 如果动态加载的数据是密文,则全局搜索是搜索不到

5,移动端数据如何抓取?- fiddler,appnium,网络配置

6,抓取过哪些类型的数据,量级多少?- 电商,医疗器械,彩妆,新闻资讯,金融,体育赛事(参考hao123网站)

- 量级:

- 最好不要超过100w。自己计算(页数,一页显示多少数据)

7,了解哪些爬虫框架?- scrapy,pyspider

8,谈谈对scrapy的了解?- 功能:数据解析,持久化存储,深度爬取,分布式,关键件<

  • 6
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值