Pythone现在已经成为全球最火爆的语言了,它的强大之处想必不需要我多说吧。接下来我就Python网络爬虫来谈一谈本渣渣的见解。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
(以上都是废话,下面开始进入正题)
以下内容基于Python3
网络爬虫根据爬取的工作量可以分成页面级的网络爬虫与网站级的网络爬虫,两种差别解决的方法也不相同,下面是爬虫的基本思路:
一.页面级的网络爬虫
1.requests 库获得一个请求回应
2.BeautifulSoup 库解析html文件
3.对解析的soup进行查找:
(1)RE正则表达式
(2)find_all(“xx”)定位标签内容
4.对爬取的内容进行操作(字符串的加减)
二.网站级的页面爬虫
scrapy框架
(一)首先安装Python3,具体流程xx
(二)在CMD界面下 使用pip 命令下载Requests库与BeautifulSoup库
pip