面试相关问题----Python 爬虫项目内容

最新推荐文章于 2022-09-20 14:30:08 发布

习惯了看孤独的风景

最新推荐文章于 2022-09-20 14:30:08 发布

阅读量665

点赞数 2

分类专栏：面试相关文章标签： python 面试

本文链接：https://blog.csdn.net/u012997755/article/details/105870696

版权

面试相关专栏收录该内容

1 篇文章 0 订阅

订阅专栏

内容

爬虫，数据分析可视化项目
岗位数据分析可视化
通过Python进行招聘数据的抓取，并对数据进行储存和数据的处理，以及数据分析的可视化
涉及知识点：
1.Python 基础语法、数据类型、流程控制、函数
2. 爬虫的请求过程、requests库的安装和使用、Http请求与POST
3. 爬虫与反爬、请求头Headers、Cookie
4. Json数据的处理及储存、jieba分词、词频统计
5. pyecharts 的使用以及图表的绘制

爬虫

Q ：对拉勾网进行数据抓取，而不是在智能招聘、boss直聘这些需要登录和验证码处理的网站进行，是你抓取不了吗？
A ：因为当时的项目需要数据时间给的比较少，是为了尽量减少经济和时间成本是在拉勾网进行的。如果实在需要登录和验证码处理的网站可以借助第三方验证平台，当然也可以利用图像识别抓取，但是会有较大的误差，还是更建议使用第三方验证平台。

技术问题

Q：http 和 https 的区别：
A：http协议传输的数据都是未加密的，也就是明文的，因此使用http协议传输隐私信息非常不安全，为了保证这些隐私数据能够加密传输，于是网景公司设置了SSL (Secure Sockets Layer) 协议用于对http协议传输的数据进行加密，从而就诞生了https。简单来说，https协议就是http+ssl协议构建的可进行加密传输、身份认证的网络协议，要比http协议安全。
https 和 http 的区别主要如下：
1、https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用。
2、http是超文本传输协议，信息是明文传输，https则是具有安全性的ssl加密传输协议。
3、http和https使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443。
4、http的连接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议，比http协议安全。

Q ：遇到反爬虫时的应对策略有哪些：
A ：方法一：
添加header信息 :

1> 添加User-Agent
2> 添加Referer
3> 添加Cookie
4> 以上三步还不成功就将添加所有的headers信息：注意将gzip（压缩命令）注释

方法二：降低请求频率，减少对对方服务器的压力
方法三：添加代理池

Q ：进程与线程的关系：
他们的关系：一个进程内至少有一个主线程,还可以有多个子线程，一个进程崩溃,整个线程就崩溃，在同一个进程内的线程是可以创建另外的线程，这些线程之间数据共享，适用于需要同时进行又要共享某些变量的并发操作

关于笔试和面试的详细内容见牛客网！

习惯了看孤独的风景

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录