数据获取 的方式
- 企业生产的用户数据 大型互联网数据 公司 有海量数据
- 数据管理咨询公司 数据采集团队 市场调研
- 政府第三方 提供公开数据
- 第三方数据平台购买数据
- 爬虫 爬特定数据
网页 三大特征
1.统一资源定位符
2.html
3.http/https 传输 HTML
爬虫数据思路
- 确定需要的url地址
- 通过 Http/https 获取对应的HTML 页面
- 提取页面有效信息
-
- 首先确定需要爬取的网页URL地址
- 通过http/https协议获取对应的HTML页面
- 提取HTML页面里有用的数据:
- 如果是需要的数据,就保存起来
- 如果是页面里的其他URL,那就继续执行
-
From urlib import request
Header = { “ liulianqi ”}
Req = Request.Request(url,header = header)
Request.urlopen(req).read.decode(“utf-8”)