Python爬虫

最新推荐文章于 2024-07-07 22:25:52 发布

LoverSeve

最新推荐文章于 2024-07-07 22:25:52 发布

阅读量174

点赞数 1

文章标签：爬虫 python

本文链接：https://blog.csdn.net/LoverSeve/article/details/119539534

版权

爬取个小说玩一玩，在开始之前，先引入我们所需要的的模块：

import requests
import re
from bs4 import BeautifulSoup

获取整个页面：

URL = 'http://m.xxqishu.com/book/54/64307/1.html'
From_data = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
        }
response = requests.get(url=url1, data=From_data)
response1 = response.text

使用BeautifulSoup定位我们想要的内容

soup = BeautifulSoup(response.text, 'lxml')
data = soup.select('body>div.wrapper>div.content>div.articlecon.font-large>p')

开始对匹配的内容进行整理，剔除（内容比较杂，剔除的就多一点！！）

data = str(data)
a = data.replace('<br/>', '\n')
b = a.replace('<p>', '')
c = b.replace('[', '')
d = c.replace(']', '')
string_new = d.replace('</p>', '')

最后保存数据

with open(url4, 'a', encoding='utf8') as f: # url4 保存的文件地址
     f.write(i)

好了，这个就是我们需要的内容了，以上代码并不能爬取多页（如果想爬取的话，可以看一下每一页的URL，都是有规律的，也是比较简单），以上代码仅作为学习使用！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LoverSeve

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
Python爬虫

url = 'https://www.baidu.com/s?wd=号码'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36' }contents = requests.get(url=url2, headers=headers)html = conte.
复制链接

扫一扫