Python爬虫

以下记录均用于个人后期的使用,并不是完整的记录,详细的内容应该查阅相关手册

抓包技巧

要想使用python爬取网上的数据一定要会使用抓包工具。
其实就是Google的开发者工具。之后再进行补充

用Python爬取网页数据

通常使用两个库:requests和BeautifulSoup
安装很容易pip就行了

#导入包
import requests
from BeautifulSoup import BeautifulSoup as BS

主要记录一下.text的用法解释:
在看代码的过程中.text无法看懂是什么意思
.text就是解析html文件的过程中将文本内容进行拼接,其实就是去除标签将文本内容进行合并。
记录一个很简单的例子
假设爬取下来的网页信息如下:

1<td>some text</td> 
2<td></td>
3<td><p>more text</p></td>
4<td>even <p>more text</p></td>

使用.text之后得到的数据就是

1、some text
2、more text
3、even more text 

相比较之下.string得到的则是:

1、some text
2None
3、more text
4None

总的来说.text做的事情就是将标签去除返回一个合并后的文本
来自知乎上更为细致的讲解

Python爬虫有趣的项目:

入门练手:爬取天猫项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值