1.数据抽取、转换、储存(Data ETL--extract/transfer/loading):
原始资料【raw data】==》ETL脚本【ETL Script】==》结构化数据【Tidy Data】
2.网络爬虫:将非结构化的网页数据转成结构化信息
3.网络爬虫架构:
=======》请求
数据中心《==资料剖析《==网页链接器(Web Connector) 网页
《=======回应
4.使用开发人员工具
于网页上点选右键->检查
5.观察http请求与返回内容:选择Network页签,点选Doc,点选china/
6.什么是GET:GET内容写在上头
7.撰写网络爬虫课前须知:
(1)透过pip安装套件:pip install requests,pip install BeautifulSoup4,pip install jupyter【打开jupyter notebook】
(2)Chrome用户:可使用内建开发人员工具
(3)Firefox用户:安装Firebug
8.Requests:
Requ

本文是数据科学工程师面试系列的第一部分,重点介绍了Python爬虫实战。内容涵盖数据抽取、转换、储存(ETL)过程,网络爬虫的工作原理,如何观察HTTP请求与响应,使用开发人员工具,以及利用Requests库进行网页抓取,包括提取不同HTML标签内容,抓取时间、来源和编辑名称等关键信息。
最低0.47元/天 解锁文章
599

被折叠的 条评论
为什么被折叠?



