初学者爬虫基本步骤

爬虫基本步骤:1.发送请求,通过urlopen(URL),获得response2.通过reponse.read()获得字节,如果得到像图片等二进制的字节就不需要转化了,否则通过decode()转化成字符串3.使用正则表达式或Bs进行信息(字符模式)的提取4.对爬取的数据进行存储案例:名言网爬虫from urllib.request import urlopenimport reim...
摘要由CSDN通过智能技术生成

爬虫基本步骤:
1.发送请求,通过urlopen(URL),获得response
2.通过reponse.read()获得字节,如果得到像图片等二进制的字节就不需要转化了,否则通过decode()转化成字符串
3.使用正则表达式或Bs进行信息(字符模式)的提取
4.对爬取的数据进行存储
案例:名言网爬虫
from urllib.request import urlopen
import re
import csv
第一步:
url1=“http://quotes.toscrape.com/”
response=urlopen(url1)

第二步:
html_text=response.read().decode()

print(html_text)

第三步:
res_div="<div class=“quote”(.?)"
res_quote="<span class=“text” itemprop=“text”>(.
?)"
res_author=“by <small class=“author” itemprop=“author”>(.?)"
res_tag="<a class=“tag” .
?>(.*?)”
li=re.findall(res_div,html_text,re.S|re.M|re.I)

第四步:
with open(“c:/aa.csv”,“wt”,newline=&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值