浅学之爬虫

爬虫是一种通过自动化的脚本对网页进行批量获取信息的技术。Python是用来编写爬虫的一种常用语言

学习爬虫首先要有一定的python基础
其次需要学习一种爬虫框架
当然,网络分析也是需要学习的,例如HTML就比较常用
最后,一定要多多实践,才能不断巩固和完善自己的水平

网络数据的获取(爬取)

1.抓取:

 三种方法:urllib内建模块,Requests第三方模块,Scrapy框架

这里简单介绍下Requests第三方模块

import requests
# y运用get函数
r = requests.get('(网址)')

r.text

浅浅解释下:

requests.get():请求获取指定URL位置的资源,对应HTTP协议的GET方法

2.解析:

简单的两种方法:BeautifulSoup库,re模块

这里简单用下re模块

import requests
re = requests.get('(网页)')
print(re.text)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值