Python爬虫的基本思路

最新推荐文章于 2024-08-13 14:29:05 发布

大嘟督

最新推荐文章于 2024-08-13 14:29:05 发布

阅读量2.2k

点赞数 4

分类专栏： python

本文链接：https://blog.csdn.net/qq_44240254/article/details/89812715

版权

python 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

我们都知道当今是“大数据时代”，那么数据从何而来，根据查询有1、企业产生的数据；2、数据平台购买的数据；
3、政府/机构公开的数据；4、数据管理咨询公司；还有一种就是跟据市场需求爬虫工程师网络爬取的数据。

爬虫的基本思路

1、确认抓取的网页
首先我们要清楚我们需要什么数据，需要在哪里爬取，然后找到网页，选取一部分种子url，将这些url放入待抓取url的队列，如果有分页的话，我们可以进行规律分析，然后进行for，或者while循环进行网络请求，当然还可以根据需求加上一些if判断。
2、请求网页
HTTP的请求主要分为GET和POST两种
GET是从服务器上获取数据，post是向服务器传送数据
get请求参数都显示在浏览器网址上，http服务器根据该请求所包含的url中的参数来产生响应内容，即中的参数来产生响应内容，即 “Get” 是请求的参数是 URL 的一部分。例
如： http://www.baidu.com/s?wd=Chinese
POST 请求参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，，通常用
来向 HTTP 服务器提交量比较大的数据（比如请求中包含许多参数或者文件上传操作等），
请求的参数包含在“Content-Type”
Python3中请求网页要引入requests模块，一般分为一下几种
（1）response=requests.get(url)
（2）response=requests.post(url)
3、可以将请求的网页写入html文件内，便于分析
with open(‘insex.html’,‘w’,encoding=response.encoding) as fp:
fp.write(response.text)
4、提取数据
（1）利用正则表达式提取数据
需要引入re模块，首先定义正则，一般用pattern=re.compile(r’\d’)；
result=pattern.findall(目标字符串)即可匹配出来
（2）利用xpath提取数据
需要下载xpath,然后引入from lxml import etree
tree = etree.HTML(text)将文档生成一个树，然后根据节点向下定位到
需要抓取数据的位置，如：html=tree.xpath(’//html’),head=html.xpath(’./head’)
5、最后将获取到的数据存入mysql数据库，可以选择Navicat for MySQL来进行操作
可提高效率。