用python爬取我的百度经验目录

最新推荐文章于 2023-03-17 22:32:41 发布

Happy画板

最新推荐文章于 2023-03-17 22:32:41 发布

阅读量427

点赞数

分类专栏： python3爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_34040902/article/details/78541052

版权

python3爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python进行网络爬虫，通过实例展示了如何获取百度经验页面上的每篇文章链接及文章标题，详细阐述了爬取过程。

摘要由CSDN通过智能技术生成

获得每一篇文章的链接：

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'<a href="([.*\S]*\.html)" title='
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

url = "https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn="
for i in range(0,89*7,7):
    i = str(i)
    a = url+i
    html = getHtml(a)
    html = html.decode('UTF-8')
    for i in getImg(html):
        print("https://jingyan.baidu.com"+i)

爬取标题：

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'<a href="([.*\S]*\.html)" title='
    reg = r'title="([.*\S]*\？)" target='
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

url = "https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn="
for i in range(0,89*7,7):
    i = str(i)
    a = url+i
    html = getHtml(a)
    html = html.decode('UTF-8')
    for i in getImg(html):
        print(i)

Happy画板

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用python爬取我的百度经验目录

获得每一篇文章的链接：import reimport urllib.requestdef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'<a href="([.*\S]*\.html)" title='
复制链接

扫一扫

专栏目录