py爬虫

最新推荐文章于 2023-06-19 10:21:34 发布

AnGe9798

最新推荐文章于 2023-06-19 10:21:34 发布

阅读量443

点赞数 1

分类专栏： py笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ange9798/article/details/84197764

版权

py笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据获取的方式

企业生产的用户数据大型互联网数据公司有海量数据
数据管理咨询公司数据采集团队市场调研
政府第三方提供公开数据
第三方数据平台购买数据
爬虫爬特定数据

网页三大特征

1.统一资源定位符

2.html

3.http/https 传输 HTML

爬虫数据思路

确定需要的url地址
通过 Http/https 获取对应的HTML 页面
提取页面有效信息
- - 首先确定需要爬取的网页URL地址
  - 通过http/https协议获取对应的HTML页面
  - 提取HTML页面里有用的数据：
    1. 如果是需要的数据，就保存起来
    2. 如果是页面里的其他URL，那就继续执行

From urlib import request

Header = { “ liulianqi ”}

Req = Request.Request(url,header = header)

Request.urlopen(req).read.decode(“utf-8”)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
py爬虫

数据获取的方式企业生产的用户数据大型互联网数据公司有海量数据数据管理咨询公司数据采集团队市场调研政府第三方提供公开数据第三方数据平台购买数据爬虫爬特定数据网页三大特征1.统一资源定位符2.html3.http/https 传输 HTML爬虫数据思路确定需要的url地址通过 Http/https 获取对应的HTML 页面...
复制链接

扫一扫

专栏目录

AnGe9798 CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

45万+: 周排名

32万+: 总排名

2431: 访问

: 等级

162: 积分

3: 粉丝

4: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

hive 1篇
笔记 1篇
java 笔记 1篇
Hadoop 笔记 2篇
linux 笔记 1篇
Mysql 笔记 1篇
py笔记 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。