使用Python爬取小說網站並且將內容自動導入MYSQL數據庫當中

最新推荐文章于 2024-06-03 23:00:56 发布

082200598

最新推荐文章于 2024-06-03 23:00:56 发布

阅读量167

点赞数

分类专栏：數據庫 python MYSQL數據庫

本文链接：https://blog.csdn.net/menpizzer/article/details/90742739

版权

这篇博客介绍了如何使用Python爬虫技术抓取小说网站的内容，并详细阐述了将抓取的数据自动导入到MySQL数据库的过程。

摘要由CSDN通过智能技术生成

#該操作主要是以本地ip對mysql進行訪問，

整理得有點亂,多多包涵囉~~~

def Spider():
# 懶地註釋囉!自己查吧
import requests
from lxml import etree
import re
# 模擬請求頭
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36"
}
# 抓取網址，請求頭
r = requests.get('http://www.seputu.com/', headers=headers)

html = etree.HTML(r.text)
rows = []
titall = html.xpath('//*[@class="mulu"]')
for tit in titall:
    h2 = tit.xpath('.//div[@class="mulu-title"]/center/h2/text()')
    # 判斷是否存在內容
    if len(h2):
        h2tit = h2
        a_s = tit.xpath('./div[@class="box"]/ul/li/a')
        for a in a_s:
            href = a.xpath('./@href')[0]
            tits = a.xpath('./@title')[0]
            # 匹配所有
            pattern = re.compile(r'\s*

最低0.47元/天解锁文章

082200598

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Python爬取小說網站並且將內容自動導入MYSQL數據庫當中

#該操作主要是以本地ip對mysql進行訪問，整理得有點亂,多多包涵囉~~~def Spider():# 懶地註釋囉!自己查吧import requestsfrom lxml import etreeimport re# 模擬請求頭headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebK...
复制链接

扫一扫

专栏目录