Python爬虫的基本思路

我们都知道当今是“大数据时代”,那么数据从何而来,根据查询有1、企业产生的数据;2、数据平台购买的数据;
3、政府/机构公开的数据;4、数据管理咨询公司;还有一种就是跟据市场需求爬虫工程师网络爬取的数据。


爬虫的基本思路


1、确认抓取的网页
首先我们要清楚我们需要什么数据,需要在哪里爬取,然后找到网页,选取一部分种子url,将这些url放入待抓取url的队列,如果有分页的话,我们可以进行规律分析,然后进行for,或者while循环进行网络请求,当然还可以根据需求加上一些if判断。
2、请求网页
HTTP的请求主要分为GET和POST两种
GET是从服务器上获取数据,post是向服务器传送数据
get请求参数都显示在浏览器网址上,http服务器根据该请求所包含的url中的参数来产生响应内容,即 中 的 参 数 来 产 生 响 应 内 容 , 即 “Get” 是 请 求 的 参 数 是 URL 的 一 部 分 。 例
如: http://www.baidu.com/s?wd=Chinese
POST 请求参数在请求体当中, 消息长度没有限制而且以隐式的方式进行发送, , 通常用
来向 HTTP 服务器提交量比较大的数据 ( 比如请求中包含许多参数或者文件上传操作等 ) ,
请求的参数包含在“Content-Type”
Python3中请求网页要引入requests模块,一般分为一下几种
(1)response=requests.get(url)
(2)response=requests.post(url)
3、可以将请求的网页写入html文件内,便于分析
with open(‘insex.html’,‘w’,encoding=response.encoding) as fp:
fp.write(response.text)
4、提取数据
(1)利用正则表达式提取数据
需要引入re模块,首先定义正则,一般用pattern=re.compile(r’\d’);
result=pattern.findall(目标字符串)即可匹配出来
(2)利用xpath提取数据
需要下载xpath,然后引入from lxml import etree
tree = etree.HTML(text)将文档生成一个树,然后根据节点向下定位到
需要抓取数据的位置,如:html=tree.xpath(’//html’),head=html.xpath(’./head’)
5、最后将获取到的数据存入mysql数据库,可以选择Navicat for MySQL来进行操作
可提高效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值