python学习之----爬取数据

最新推荐文章于 2022-05-23 11:10:40 发布

阿猫的自拍

最新推荐文章于 2022-05-23 11:10:40 发布

阅读量190

点赞数

分类专栏：数据结构与Python

本文链接：https://blog.csdn.net/weixin_37721058/article/details/104139115

版权

网页基本了解

-- 参考链接：https://morvanzhou.github.io/tutorials/data-manipulation/scraping/1-01-understand-website/

网页的基本了解

1.html格式，配合CSS和javascript显示出来，所以我们主要从html提取网页。
2.head + body = html
3.head 不显示，是在里面，所以我们一般都是爬取body的信息
4.没有css的话网页是很丑陋的，css的class用来同意修改格式的文字，更加方便，不同的class样式不同。

正则表达+beautiful soup

1.这两个结合可以让我们更好的筛选从网页上爬到的信息，beautiful soup一般都会有tag，我们通过tag来阅读，而正则的出现则是我们更好的筛选出我们想要的信息

Request的使用更好的进入网站

参考链接

1.post的使用，一般都是来和网站交互的使用，一般会提交一些数据给我们的服务器的网站。所以比如我们登陆账号等一般都会用到post这类的。个性化信息，自己发到服务器，然后服务器根据信息返回结果给你，比如你登陆知乎，就是专门属于你的名称和图标。-
2.get的使用，一般则

最低0.47元/天解锁文章

阿猫的自拍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习之----爬取数据

网页基本了解-- 参考链接：https://morvanzhou.github.io/tutorials/data-manipulation/scraping/1-01-understand-website/网页的基本了解1.html格式，配合CSS和javascript显示出来，所以我们主要从html提取网页。2.head + body = html3.head 不显示，是在里面，...
复制链接

扫一扫

专栏目录