爬虫学习一

什么是爬虫?

网络爬虫(web crawler)也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证超链接和HTML代码,用于网络抓取(Web scraping)。网络搜索引擎等站点通过爬虫软件更新自身的网站内容(Web content)或其对其他网站的索引。

爬虫基本流程

1.发送请求:使用http库向目标站点发起请求,即发送一个request(包含请求头和请求体等)。 

2.获取响应内容:如果服务器正常响应,则得到一个Response(包含html,json,图片,视频)。
3.解析内容:解析html数据(正则表达式RE模块),第三方解析库(Beautifulsoup),解析json数据(json模块)。

4.保存数据

代码:import requests

           from bs4 import BeautifulSoup

           r=requests.get("http://www.baidu.com")    #使用get打开链接

           r.status_code    #返回状态,200代表成功

           r.encoding='utf-8'    #中文为乱码,所以改变编码方式

           r.text

           soup=BeautifulSoup(r.text)

            type(soup)            #输出字符类型

            soup.head   soup.title   soup.body  soup.p   

             import re #正则表达式库

             re.findall #匹配字符串

               r = requests.get(url).text    #获取内容并存储数据为text类型

             

             

        

           


 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值