基础爬虫(原理)

网络爬虫:模拟浏览器自动的浏览网页   即:一段程序(一个脚本)

作用:自动的批量采集需要的资源

环境:python3

模块:requests (第三方库)

           安装---->cmd      pip install requests

eg:

import requests

import re

#下载一个网页

url = 'www.jingcaiyuedu.com'

#模拟浏览器发送http请求

response = requests.get(url)

#编码方式

response.encoding = 'utf-8'

#目标小说主页的网页源码

html = response.text

#小说的名字

title = re.findall(r'<mete prooerty="og:title" content="(.*?)"/>,html)[0]

#获取每一章的信息(章节,url)

dl = re.findall(r'<dl id="list">.*?</dl>,html,re.S)[0]

chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)

print(chapter_info_list)

 

开发爬虫步骤:

     -目标数据:   网站     页面

     -分析数据加载流程: 分析目标数据所对应的url

     -下载数据

     -清洗 处理数据

     -数据持久化

 

转载于:https://www.cnblogs.com/flawlessm/p/10537977.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值