python学习之----爬取数据

网页基本了解

-- 参考链接:https://morvanzhou.github.io/tutorials/data-manipulation/scraping/1-01-understand-website/

网页的基本了解

1.html格式,配合CSS和javascript显示出来,所以我们主要从html提取网页。
2.head + body = html
3.head 不显示,是在里面,所以我们一般都是爬取body的信息
4.没有css的话网页是很丑陋的,css的class用来同意修改格式的文字,更加方便,不同的class样式不同。


正则表达+beautiful soup

1.这两个结合可以让我们更好的筛选从网页上爬到的信息,beautiful soup一般都会有tag,我们通过tag来阅读,而正则的出现则是我们更好的筛选出我们想要的信息


Request的使用更好的进入网站

参考链接

1.post的使用,一般都是来和网站交互的使用,一般会提交一些数据给我们的服务器的网站。所以比如我们登陆账号等一般都会用到post这类的。个性化信息,自己发到服务器,然后服务器根据信息返回结果给你,比如你登陆知乎,就是专门属于你的名称和图标。-
2.get的使用,一般则

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值