以下记录均用于个人后期的使用,并不是完整的记录,详细的内容应该查阅相关手册
抓包技巧
要想使用python爬取网上的数据一定要会使用抓包工具。
其实就是Google的开发者工具。之后再进行补充
用Python爬取网页数据
通常使用两个库:requests和BeautifulSoup
安装很容易pip就行了
#导入包
import requests
from BeautifulSoup import BeautifulSoup as BS
主要记录一下.text的用法解释:
在看代码的过程中.text无法看懂是什么意思
.text就是解析html文件的过程中将文本内容进行拼接,其实就是去除标签将文本内容进行合并。
记录一个很简单的例子
假设爬取下来的网页信息如下:
1、<td>some text</td>
2、<td></td>
3 、<td><p>more text</p></td>
4、<td>even <p>more text</p></td>
使用.text之后得到的数据就是
1、some text
2、more text
3、even more text
相比较之下.string得到的则是:
1、some text
2、None
3、more text
4、None
总的来说.text做的事情就是将标签去除返回一个合并后的文本
来自知乎上更为细致的讲解
Python爬虫有趣的项目:
入门练手:爬取天猫项目