【艾琪出品】-【南开计算机】《网络爬虫与信息提取》19秋期末考核、参考资料

【声明】本博客内容,若有侵权请告之,会删除 非商业用途,如有侵权,请告知我,我会删除

如回复不及时,或不懂的请加我  微信 island68  QQ823173334   可以的话注明来自CSDN

很希望通过CSDN这个平台与大家交流

自用留存

《网络爬虫与信息提取》19秋期末考核

1. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
XSS|DOS|DDOS|跨域

2. 以下哪个HTML标签表示分区或节()
<div>|<body>|<head>|<footer>

3. 使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
content|text|title|body

4. Python操作CSV文件可通过()容器的方式操作单元格
列表|元组|字典|集合

5. Python中Object=(1, 2, 3, 4, 5),则Objcet是()
列表|元组|字典|集合

6. HTTP常用状态码表明服务器正忙的是()
500|503|403|404

7. 使用UI Automator打开微信的操作是获取相应图标后使用命令()
touch|click|push|hover

8. Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_1','3')是()
1|2|3|无输出

9. 采用以下()技术可以实现异步加载
HTML|AJAX|CSS|HTTP

10. 网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
robot.txt|robot.html|robots.txt|robots.html

11. Chrome的开发者工具中哪个选项可以查找到cookies
Elements|Sources|Network|Peformance

12. 以下哪个命令是linux下解压缩命令()
curl|tar -zxvf|mkdir|cp

13. MongoDB中数据存储的形式类似于()
列表|元组|字典|集合

14. 以下哪个HTML标签表示定义列表项目()
<ul>|<li>|<tr>|<td>

15. python中可以用来将图片中的文字转换为文本的第三方类库是
lxml|requests|beautifulsoup|pytesseract

16. 下列哪项不是HTTP的请求类型()
GET|POST|PUT|SET

17. 以下哪个HTML标签表示定义 HTML 表格中的标准单元格()
<ul>|<li>|<tr>|<td>

18. 当爬虫创建好了之后,可以使用"scrapy()<爬虫名>" 命令运行爬虫。
startup|starwar|drawl|crawl

19. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
HEADER|HEADERS|HEAD|BODY

20. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
curl|tar -zxvf|mkdir|cp

21. MongoDB中获取名字为db的库的语句为()
client.db|client('db')|client['db']|client{'db'}

22. 以下哪些方法属于Python写CSV文件的方法()
writeheaders|writeheader|writerrows|writerow

23. 下载器中间件的作用有哪些?
更换代理IP|更换Cookies|更换User-Agent|自动重试

24. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
非法侵入计算机系统罪|非法获取计算机信息系统数据罪|非法获取计算机数据罪|非法获取系统罪

25. Python中()容器有推导式
列表|元组|字典|集合

26. 通用网络爬虫通常采用串行工作方式
对|错

27. 需要登录的网站一般通过GET请求就可以实现登录。
对|错

28. 代理中间件的可用代理列表一定要写在settings.py里面
对|错

29. requests中get请求方法的使用为requests.get('网址', data=data)
对|错

30. 所有的异步加载都会向后台发送请求
对|错

31. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
src/redis-server
对|错

32. 爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
对|错

33. 爬虫中间件的激活需要另外写一个文件来进行
对|错

34. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
对|错

35. Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
对|错

36. 在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。


37. 爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##<br><br>


38. 在Windows下运行Redis命令为##redis.windows.conf


39. MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件##<br><br>


40. lxml库中etree模块的etree.tostring()方法是做什么用的<br><br>


41. 请描述爬虫中的深度优先搜索过程


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值