数据科学工程师面试宝典系列之一--Python爬虫实战

本文是数据科学工程师面试系列的第一部分,重点介绍了Python爬虫实战。内容涵盖数据抽取、转换、储存(ETL)过程,网络爬虫的工作原理,如何观察HTTP请求与响应,使用开发人员工具,以及利用Requests库进行网页抓取,包括提取不同HTML标签内容,抓取时间、来源和编辑名称等关键信息。
摘要由CSDN通过智能技术生成

1.数据抽取、转换、储存(Data ETL--extract/transfer/loading):

原始资料【raw data】==》ETL脚本【ETL Script】==》结构化数据【Tidy Data】

2.网络爬虫:将非结构化的网页数据转成结构化信息

3.网络爬虫架构:

                                                                                                               =======》请求

 数据中心《==资料剖析《==网页链接器(Web Connector)                                      网页

                                                                                                              《=======回应

4.使用开发人员工具

于网页上点选右键->检查

5.观察http请求与返回内容:选择Network页签,点选Doc,点选china/

6.什么是GET:GET内容写在上头

7.撰写网络爬虫课前须知:

(1)透过pip安装套件:pip install requests,pip install BeautifulSoup4,pip install jupyter【打开jupyter notebook】

(2)Chrome用户:可使用内建开发人员工具

(3)Firefox用户:安装Firebug

8.Requests:

Requests:(1)网络资源(URLs)截取套件;(2)改善Urllib2的缺点,让使用者以最简单的方式获取网络资源;(3)可以使用REST操作(POST,PUT,GET,DELETE)存取网络资源

import requests
newsurl='http://news.sina.com.cn/china/'
res=requests.get(newsurl)
print(res.text)

8.DOM Tree

<html>
<body>
<h1 id="title">Hello World</h1>
<a href&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值