- 博客(2)
- 收藏
- 关注
原创 Python之爬虫学习(1)
爬虫的遵循的规则:公民隐私数据不爬;状态行里的200表示客户端请求成功,下图是其他数字的含义,查询数字含义的链接。在爬虫时,方法类型大多为GET。以上内容仅供笔者学习自用,如有错误,请各位大佬不吝赐教,待更新。获取网页内容——>解析网页内容——>储存或分析(可视化)数据。查看网站的robots.txt文件,了解可爬取的网页路径范围。有时需要将爬虫程序伪装成浏览器,方法就是:加上head。结果显示为418,4开头的就是不通过。HTTP请求是用户想要的到的内容。HTTP响应是服务器给用户的内容。
2024-08-18 20:39:51 1040
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人