网页基本了解
-- 参考链接:https://morvanzhou.github.io/tutorials/data-manipulation/scraping/1-01-understand-website/
网页的基本了解
1.html格式,配合CSS和javascript显示出来,所以我们主要从html提取网页。
2.head + body = html
3.head 不显示,是在里面,所以我们一般都是爬取body的信息
4.没有css的话网页是很丑陋的,css的class用来同意修改格式的文字,更加方便,不同的class样式不同。
正则表达+beautiful soup
1.这两个结合可以让我们更好的筛选从网页上爬到的信息,beautiful soup一般都会有tag,我们通过tag来阅读,而正则的出现则是我们更好的筛选出我们想要的信息
Request的使用更好的进入网站
1.post的使用,一般都是来和网站交互的使用,一般会提交一些数据给我们的服务器的网站。所以比如我们登陆账号等一般都会用到post这类的。个性化信息,自己发到服务器,然后服务器根据信息返回结果给你,比如你登陆知乎,就是专门属于你的名称和图标。-
2.get的使用,一般则